1. Softmax function: Standard map from to a probability distribution
这里指数主要有两个作用,一是将所有值转化为正数,二是凸显得分较高的值。归一化变为概率的近似。softmax function 具有常数不变性:
该性质的一个好处是我们在进行softmax函数变换时可以统一减去最大值防止溢出情况的发生。
2. word2vec的主要思路
两个算法:
- Skip-grams (SG):预测上下文
- Continuous Bag of Words (CBOW):预测目标单词
两种稍微高效一些的训练方法:
- Hierarchical softmax
- Negative sampling
在这门课里,只会讲Naïve softmax。
他人笔记:http://www.hankcs.com/nlp/word-vector-representations-word2vec.html