一、改进方法:
-
- 将常见的单词组合(word pairs)或者词组作为单个“words”来处理。
-
- 对高频次单词进行抽样来减少训练样本的个数。
-
- 对优化目标采用“negative sampling”方法,这样每个训练样本的训练只会更新一小部分的模型权重,从而降低计算负担。
二、负采样方法
-
- 负采样:只随机选择一部分negative words来更新对应的权重(一般选择5-20个negative words)
如何选择negative words:
- 负采样:只随机选择一部分negative words来更新对应的权重(一般选择5-20个negative words)
-
- 使用“一元模型分布(unigram distribution)”来选择“negative words”:一个单词被选作negative sample的概率跟它出现的频次有关,出现频次越高的单词越容易被选作negative words。每个单词被选为“negative words”的概率计算公式与其出现的频次有关。
参考文献:https://zhuanlan.zhihu.com/p/27234078