1. 前言
解读SGNS(skip-gram with negative-sample)的训练方法。
1.1 skip-gram 模型:
利用当前时刻的词,预测它上下文的内容

公式:
对于序列 w1, w2, …, wT, Skip-gram最大化平均的log 概率。

p(w|w_t) 使用softmax函数:
这里, W是词汇表中单词的数量。
1.2 Skip-gram + negative sampling:
从上面可以看到,如果直接使用 softmax是不靠谱的, 因为计算量和词汇表的数量W有关,而一般词汇表大小为 1 0 5