接上篇one-hot
one-hot与词向量的分布式表示的不同 举个例子:
我们每天都在进步的one-hot表示:
我们(1, 0, 0, 0, 0) 每天( 0, 1, 0, 0, 0) 都( 0, 0, 1, 0, 0) 在( 0, 0, 0, 1, 0) 进步( 0, 0, 0, 0, 1)
词向量的表示:
我们(0.2, 0.1, 0.3, 0.5, 0.8) 每天( 0.5, 1.6, 0.4, 0.8, 0.1) 都( 0.165, 0.46, 0.21, 0.574, 0.5) 在( 0.3, 0.2, 0.1, 0.6, 0.4) 进步( 0.1, 0.2, 0.3, 0.4, 1.5)
one-hot与词向量的分布式表示之间的区别:
1、长度
one-hot的长度为中文本中单词的个数,为200000个
词向量的长度,通常为100维-----300维, (可自定义,通过word2vec进行训练,或者直接用腾讯已经训练好的word2vec模型,我在工作中,使用腾讯的word2vec模型进行重新训练,发现word2vec这种方式,产生出的词向量,用于情感分析,效果有时候还不如tf-idf好。效果最好的属于bert模型)
2、稀疏性
one-hot有一定的稀疏性
词向量很稠密
理想中,词向量代表单词的意思
词向量转化成句子向量:
平均法:叠加后求均值
rnn/lstm
word2vec的训练方式,已经有很多篇相关的文章了,在后期再进行详细介绍