Chapter 3.3 词向量和语言模型（三）

本文链接：https://blog.csdn.net/Yif18/article/details/123110988

word2vec包含两个模型，即连续词袋模型（CBOW）和跳元模型（skip-gram），CBOW是使用周围词预测核心词，skip-gram是使用核心词预测周围词
对于NNLM模型的优化（以CBOW为例）
1. 有隐藏层→无隐藏层，神经网络结构为输入层、投影层、输出层
2. 输入层前文窗口→前后文窗口
3. 投影层按顺序首尾相连拼接→求和（平均）
4. 输出层线性结构→树型结构（层次Softmax）
5. 输出层全样本→负采样

输出层对应一棵哈夫曼树
Logistic回归 $h_{\theta}(x)=\sigma(\theta^Tx)=\frac{1}{1+e^{-\theta^Tx}}$
例：预测 $w$ ="足球"的概率，设定往左走为负类（记为1，概率为 $1-\sigma(\theta^Tx)$ ）,往右走为正类（记为0，概率为 $\sigma(\theta^Tx)$ ）
对于词典中任意一个词 $w$ ，哈夫曼树中必存在一条且唯一一条从根结点到词 $w$ 对应结点的路径 $p^w$ ，路径 $p^w$ 上存在 $l^w-1$ 个分支（ $l^w$ 表示该路径包含的结点数），将每个分支看成做一次二分类，每做一次二分类就产生一个概率，将这些概率相乘即是所需求解的 $P (w ∣ C o n t e x t (w))$

$P (w ∣ C o n t e x t (w))$ ：一个正样本， $V - 1$ 个负样本
$|Context(w))≈\sigma(x_{w}^T\theta^w)\prod_{u \in NEG(w)}[1-\sigma(x_{w}^T\theta^u)]$

$\sigma(x_{w}^T\theta^w)$ 表示当前后文为 $C o n t e x t (w)$ 时，预测中心词为 $w$ 的概率

$1-\sigma(x_{w}^T\theta^u)$ 表示当前后文为 $C o n t e x t (w)$ 时，预测中心词为 $u$ 的概率
将[0,1]划分为 $M=10^8$ 等分

词典中的每一个词对应[0,1]间某几个等分， $len(w)=\frac{counter(w)}{\sum_{u\in{D}}counter(u)}\times{10^8}$ ，实际使用中取 $counter(w)^{3/4}$

每次随机生成一个[1,M-1]间的整数，看落在哪个词对应的区域内就取该词为一个负样本

欢迎关注微信公众号“Trihub数据社”