首先word2vec只是一个工具,然后word2vec主要包含两个模型:skip-gram(跳字模型)和CBOW模型(continuous bag of words 连续词袋模型),然后还包括两种高效的训练方法:负采样(negative sampling)和层序softmax(hierarchical softmax)。word2vec可以较好的表达不同词之间的相似和类比关系。
skip-gram模型:
在skip模型中,我们用一个词(叫做中心词)来预测它周围的词。例如给定文本序列”the”,”man”,”hit”,”his”,”son”,那么skip-gram模型所做的就是,给定”hit”来生成它邻近词”the”,”man”,”his”,”son”的概率。那么”hit”叫做中心词,其他的四个词叫做背景词。
具体计算流程如下:
对于上述计算过程,理解即可,偶尔