读论文《Distributed Representations of Words and Phrases and their Compositionality》
introduce
这篇论文是对《Efficient Estimation of Word Representations in Vector Space》的补充,介绍了使用Skip-gram模型和Hierarchical Softmax训练模式的训练方法。并补充了Negative Sampling的训练模式替代Negative Sampling,获得更快的训练效果。
本文还提出了对高频词进行二次抽样的方法,以及衡量短语的方法,学习短语的表示。
method
Skip-gram的目标是最大化下面的概率分布
其中, c是训练上下文的大小。比如c是2,就预测上文2个词和下文2个词。
p(w