一、两种词向量:
- one-hot representation
- distributed representation
二、hierarchical softmax模型
(一)CBOW模型
概括:
- 输入层:传入词w的前后c个词语的词向量,一共2c个词向量。
- 投影层:将输入层的2c个向量求和累加,得到向量Xw。
- 输出层:输出层对应一棵Huffman树。对于词典D中任意一个词语w,从根节点出发到最后的词语w的路径为Pw, 存在lw-1个分支。每一次分支就是一个二分类,分别记为正、负分类(正负对应左右子树)。每一次二分类就产生一个概率。将这些概率相乘,通过投影层的Xw向量,得到词语w的条件概率。
- 用条件概率构造对数似然函数。
- 使用随机梯度上升法,计算似然函数的最优值。
- 随机梯度法:每去一次样本就对参数刷新一次。用似然函数对参数分别求导,求出更新的系数。然后对每一个参数进行更新。
- 关键在于构造条件函数。
- 参数skip_window:代表从input word的一侧选取词的数量。
- 参数num_skips:代表选取多少个不同的词作为我们的output word。
- 当skip_window = 2,num_skips = 2时,将会得到两组(input word,output word)形式的训练数据。
参考文献:https://www.cnblogs.com/peghoty/p/3857839.html