文章目录 上周验证码作业 程序 CNN在文本分类中的应用 使用word2vec训练好的权值矩阵来给CNN做初始化 语音基础 声音分类程序 上周验证码作业 最后一层没用softmax,但用sofymax损失,这个最后也可以达到比较好结果也可以达不到好的效果。 根据目标词汇可能预测上下文的一个或两个词,或多个词。 word2vec模型也是通过神经网络训练出来的,一般将词转化为向量,向量长度一般我们可以用128维度或者256维度,这个词转化为固定长度维度,之后权值就是通过神经网络训练的。 把每个词对应的向量训练好之后,都放入到一个空间中,可以发现词性相近的词会聚集到一起,即他们之间的位置比较近,距离比较近。 程序 用word2vec处理英文时候容易,默认就是空格分割,而处理中文时要先分词如J8分词等。之后处理就与英文一样了。