[文本挖掘]word2vec 笔记
Xin Rong 的论文:『word2vec Parameter Learning Explained』:
!重点推荐! 理论完备由浅入深非常好懂,且直击要害,既有 high-level 的 intuition 的解释,也有细节的推导过程
一定要看这篇paper!一定要看这篇paper!一定要看这篇paper!
1. 提纲挈领地讲解 word2vec 的理论精髓
1.1 skip-gram
如果用one-hot encoder形式表示每一个单词。
输入一个词由X1-Xv表示,输出的就是在这v个词上的输出概率,我们要用反向传播算法训练这个神经网络。
隐层的激活函数是线性的相当于没做任何处理。
当模型训练完后,我们想要得到的是神经网络的权重。
word2vec 的精髓如下:
比如现在输入一个 x 的 one-hot encoder:
[1,0,0,…,0],对应v个单词中的第一个单词,则在输入层到隐含层的权重里,只有对应 1
这个位置的权重被激活,这些权重的个数,跟隐含层