独热编码 :
一百个词一百维向量 一万个词一万维 ->高维
对于上图的解释,假设有一个包含 8 个次的字典 VV,“time” 位于字典的第 1 个位置,“banana” 位于字典的第 8 个位置,因此,采用独热表示方法,对于 “time” 的向量来说,除了第 1 个位置为 1,其余位置为 0;对于 “banana” 的向量来说,除了第 8 个位置为 1,其余位置为 0。
缺点:1)高维的
2)稀疏
3)硬编码 对于独热表示的向量,如果采用余弦相似度计算向量间的相似度,可以明显的发现任意两者向量的相似度结果都为 0,即任意二者都不相关,也就是说独热表示无法解决词之间的相似性问题。
Word Embedding词向量的引入
优点:1)低维的
2)稠密
3)从data中学习
左侧是独热向量 结果是词向量 中间矩阵Q是不断学习的出来的,明显看出这是一个降维(5D->3D)的过程,
上图所示有一个 5*3的矩阵 Q,这个矩阵 Q 包含 5 行,
Q 的内容也是网络参数,需要学习获得,训练刚开始用随机值初始化矩阵 Q,当这个网络训练好之后,矩阵 Q 的内容被正确赋值,每一行代表一个单词对应的 Word embedding 值。