word2vec数学分析

最新推荐文章于 2021-07-06 11:59:00 发布

sealir

最新推荐文章于 2021-07-06 11:59:00 发布

阅读量381

点赞数

分类专栏：深度学习文章标签： word2vec

本文链接：https://blog.csdn.net/sealir/article/details/85269567

版权

深度学习专栏收录该内容

4 篇文章 0 订阅

订阅专栏

本文没有繁文缛节，纯数学推导，建议先阅读《word2vec中的数学原理详解》

一、逻辑回归

可以阅读《逻辑回归算法分析》理解逻辑回归。

sigmoid函数： $\sigma(x) = \frac{1}{1 + e^{-x}}$

$\sigma'(x) = \sigma(x)[1 - \sigma(x)]$

$[log\sigma(x)]' = \frac{\sigma'(x)}{\sigma(x)} = 1 - \sigma(x)$

$\sigma(x))]' = \frac{-\sigma'(x)}{1 - \sigma(x)} = - \sigma(x)$

逻辑回归用于解决二分类问题，定义好极大对数似然函数，采用梯度上升的方法进行优化。事实上，word2vec的算法本质就是逻辑回归。

二、CBOW

根据上下文词，预测当前词，将预测误差反向更新到每个上下文词上，以达到更准确的预测的目的。

记：

1、 $p^w$ ：从根节点出发，到达 $w$ 的路径；

2、 $l^w$ ：路径 $p^w$ 包含节点的个数；

3、 $p_1^w, p_2^w, \cdots, p_{l^w}^w$ ：路径 $p^w$ 中第 $l^w$ 个节点，其中 $p_1^w$ 是根节点， $p_{l^w}^w$ 是 $w$ 对应的节点

4、 $d_2^w, d_3^w, \cdots, d_{l^w}^w \ \epsilon \ \left \{ 0, 1 \right \}$ ：词 $w$ 的哈夫曼编码，它由 $l^w - 1$ 位编码构成， $d_j^w$ 表示路径 $p^w$ 第 $j$ 个节点对应的编码（根节点不编码）。

5、 $\theta_1^w, \theta_2^w, \cdots, \theta_{l^w - 1}^w \ \epsilon \ \mathbb{R}^m$ ：路径 $p^w$ 中非叶子节点对应的向量， $\theta_j^w$ 表示路径 $p^w$ 第 $j$ 个非叶子节点对应的向量

6、 $Label(p_j^w) = 1 - d_j^w, j = 2,3,\cdots,l^w$ ：表示路径 $p^w$ 第 $j$ 个节点对应的分类标签（根节点不分类）

1、Hierarchical Softmax

极大似然： $\prod_{w \epsilon C}p(w|Context(w))$

极大对数似然： $\pounds = \sum_{w \epsilon C} log \ p(w|Context(w))$

条件概率： $\prod_{j=2}^{l^w} p(d_j^w|X_w, \theta_{j-1}^w)$ ，其中：

$p(d_j^w|X_w, \theta_{j-1}^w) = \left\{\begin{matrix}\sigma (X_w^T \theta_{j - 1}^w), \quad \quad \ \ d_j^w = 0 & \\ & \\ 1 - \sigma (X_w^T \theta_{j - 1}^w), \quad d_j^w = 1 & \end{matrix}\right.$ ，注意：在word2vec中的哈夫曼树中，编码0表示正类，编码1表示负类。

$X_w = \frac{\sum_{u \epsilon Context(w)} v(u)}{|Context(w)|}$

写成整体即： $p(d_j^w|X_w, \theta_{j-1}^w) = [\sigma (X_w^T \theta_{j - 1}^w)]^{1 - d_j^w} \cdot [1 - \sigma (X_w^T \theta_{j - 1}^w)]^{d_j^w}$ ，代入对数似然函数得：

$\pounds = \sum _{w \epsilon C} log \prod_{j=2}^{l^w} p(d_j^w|X_w, \theta_{j-1}^w)$

$\sum _{w \epsilon C} log \prod_{j=2}^{l^w} \left \{ [\sigma (X_w^T \theta_{j - 1}^w)]^{1 - d_j^w} \cdot [1 - \sigma (X_w^T \theta_{j - 1}^w)]^{d_j^w} \right \}$

$\sum_{w \epsilon C} \sum_{j=2}^{l^w} \left \{ (1 - d_j^w) \cdot log [\sigma (X_w^T \theta_{j - 1}^w)] + d_j^w \cdot log [1 - \sigma (X_w^T \theta_{j - 1}^w)] \right \}$

为求导方便，记： $\pounds(w, j) = (1 - d_j^w) \cdot log [\sigma (X_w^T \theta_{j - 1}^w)] + d_j^w \cdot log [1 - \sigma (X_w^T \theta_{j - 1}^w)]$

$\pounds(w, j)$ 关于 $\theta_{j - 1}^w$ 的梯度：

$\frac{\partial \pounds(w, j)}{\partial \theta_{j - 1}^w} = \frac{\partial }{\partial \theta_{j - 1}^w}\left \{ (1 - d_j^w) \cdot log [\sigma (X_w^T \theta_{j - 1}^w)] + d_j^w \cdot log [1 - \sigma (X_w^T \theta_{j - 1}^w)] \right \}$

$d_j^w)[1 - \sigma (X_w^T \theta_{j - 1}^w)]X_w - d_j^w [\sigma (X_w^T \theta_{j - 1}^w)]X_w$

$\left \{ (1 - d_j^w)[1 - \sigma (X_w^T \theta_{j - 1}^w)] - d_j^w [\sigma (X_w^T \theta_{j - 1}^w)] \right \} X_w$

$d_j^w - \sigma (X_w^T \theta_{j - 1}^w)] X_w$

于是， $\theta_{j - 1}^w$ 的更新可写为：

$\theta_{j - 1}^w \ := \ \theta_{j - 1}^w + \eta [1 - d_j^w - \sigma (X_w^T \theta_{j - 1}^w)] X_w$

由于在 $\pounds(w, j)$ 中 $\theta_{j - 1}^w$ 与 $X_w$ 是对称的，所以 $\pounds(w, j)$ 关于 $X_w$ 的梯度：

$\frac{\partial \pounds(w, j)}{\partial X_w} = [1 - d_j^w - \sigma (X_w^T \theta_{j - 1}^w)] \theta_{j - 1}^w$

用 $\frac{\partial \pounds(w, j)}{\partial X_w}$ 来对上下文词 $\epsilon Context(w)$ 进行更新：

$\eta \sum_{j=2}^{l^w}\frac{\partial \pounds(w, j)}{\partial X_w}$

以样本 $(C o n t e x t (w), w)$ 为例，训练伪代码如下：

$e = 0$

$X_w = \frac{\sum_{u \epsilon Context(w)} v(u)}{|Context(w)|}$

$\quad j = 2:l^w \quad DO$
{
$\sigma(X_w^T\theta_{j - 1}^w)$

$\eta [1 - d_j^w - q]$

$g\theta_{j - 1}^w$

$\theta_{j - 1}^w := \theta_{j - 1}^w + gX_w$
}

$\quad u \epsilon Context(w) \quad DO$
{
$v (u) : = v (u) + e$
}

这里有必要对以上伪代码的含义做一个说明，当然，直接通过导数推导过程来理解也可以，但导数的推导过程并没有表达其真实的内在含义，下文中有类似的地方，不再说明。

1、 $\sigma(X_w^T\theta_{j - 1}^w)$ ：

其含义是在已知上下文的前提下，在当前词的哈夫曼路径上做分类预测，根据路径上的父节点 $\theta_{j - 1}^w$ ，预测其子节点 $\theta_{j}^w$ ，得到的子节点的分类标签。当然，这里得到的分类标签是[0,1]之间的实数，而不是{0, 1}二分类，这个值与0，1之间的差距即是预测误差。把 $\sigma(X_w^T\theta_{j - 1}^w)$ 理解成子节点 $\theta_{j}^w$ 正分类的概率也是可以的。

2、 $1 - d_j^w - q$ ：

$1 - d_j^w$ 的含义是子节点 $\theta_{j}^w$ 的真实分类标签， $1 - d_j^w - q$ 则是真实标签与预测标签之间的误差。

3、 $g\theta_{j - 1}^w$ ：

这里是一个关键点，回到我们最开始的优化函数上，要求是的最大对数似然： $\pounds = \sum_{w \epsilon C} log \ p(w|Context(w))$ ，即求极大值，所以要用梯度上升的方法进行优化（机器学习中一般是梯度下降），所以e的更新是加法（梯度下降是减法）。

当梯度为正的时， $g\theta_{j - 1}^w > 0$ ，则 $g\theta_{j - 1}^w$ 相加后变大，将 $e$ 更新到 $v (u)$ 后让 $X_w$ 变大， $X_w$ 变大后 $\sigma(X_w^T\theta_{j - 1}^w)$ 也就变大，也就是说预测的分类标签越像1（正类），也可以理解成预测为正类的概率增大。为什么要让 $\sigma(X_w^T\theta_{j - 1}^w)$ 增大呢？反过来思考，当梯度为正的时， $1 - d_j^w - q) > 0$ ，这时只有当 $d_j^w = 0$ 时其值才可能为正，而 $d_j^w = 0$ 表示正类，分类标签为1，所以优化时要让 $\sigma(X_w^T\theta_{j - 1}^w)$ 趋近于1。

同样，当梯度为负的时， $g\theta_{j - 1}^w < 0$ ，则 $g\theta_{j - 1}^w$ 相加后变小，将 $e$ 更新到 $v (u)$ 后让 $X_w$ 变小， $X_w$ 变小后 $\sigma(X_w^T\theta_{j - 1}^w)$ 也就变小，也就是说预测的分类标签越像0（负类），也可以理解成预测为正类的概率减小。同样，反过来思考，当梯度为负的时， $1 - d_j^w - q) < 0$ ，这时只有当 $d_j^w = 1$ 时其值才可能为负，而 $d_j^w = 1$ 表示负类，分类标签为0，所以优化时要让 $\sigma(X_w^T\theta_{j - 1}^w)$ 趋近于0。

4、 $\theta_{j - 1}^w := \theta_{j - 1}^w + gX_w$ ：

同上

5、 $\quad j = 2:l^w \quad DO$ ：

该循环的含义是上下文预测的是叶子节点的词（当前词在叶子节点上），要经过该词的哈夫曼路径才能到达，所以要循环累计路径上（除根节点）每一次分类的误差。

总结：根据上下文词，遍历当前词的哈夫曼路径，累计（除根节点以外）每个节点的二分类误差，将误差反向更新到每个上下文词上（同时也会更新路径上节点的辅助向量）。

2、Negative Sampling

对 $w$ 的负样本子集 $N E G (w)$ 的每个样本，定义样本标签：

$L^w(\tilde{w}) = \left\{\begin{matrix}1,\quad w = \tilde{w} & \\ & \\ 0,\quad w \neq \tilde{w} & \end{matrix}\right.$

极大似然： $\prod_{w \epsilon C}p(w|Context(w))$

极大对数似然： $\pounds = \sum_{w \epsilon C} log \ p(w|Context(w))$

条件概率： $\prod_{u \epsilon \left \{ w \right \} \cup NEG(w)}p(u|Context(w))$ ，其中：

$\left\{\begin{matrix}\sigma (X_w^T \theta^u), \quad \quad \ \ L^w(u) = 1 & \\ & \\ 1 - \sigma (X_w^T \theta^u), \quad L^w(u) = 0 & \end{matrix}\right.$

$X_w = \frac{\sum_{u \epsilon Context(w)} v(u)}{|Context(w)|}$

写成整体即： $[\sigma (X_w^T \theta^u)]^{L^w(u)} \cdot [1 - \sigma (X_w^T \theta^u)]^{1 - L^w(u)}$ ，代入对数似然函数得：

$\pounds = \sum_{w \epsilon C} log \ \prod_{u \epsilon \left \{ w \right \} \cup NEG(w)}p(u|Context(w))$

$\sum_{w \epsilon C} log \ \prod_{u \epsilon \left \{ w \right \} \cup NEG(w)} [\sigma (X_w^T \theta^u)]^{L^w(u)} \cdot [1 - \sigma (X_w^T \theta^u)]^{1 - L^w(u)}$

$\sum_{w \epsilon C} \sum_{u \epsilon \left \{ w \right \} \cup NEG(w)} \left \{ L^w(u) \cdot log [\sigma (X_w^T \theta^u)] + [1 - L^w(u)] \cdot log [1 - \sigma (X_w^T \theta^u)] \right \}$

为求导方便，记： $\pounds(w, u) = L^w(u) \cdot log [\sigma (X_w^T \theta^u)] + [1 - L^w(u)] \cdot log [1 - \sigma (X_w^T \theta^u)]$

$\pounds(w, u)$ 关于 $\theta^u$ 的梯度：

$\frac{\partial \pounds(w, u)}{\partial \theta^u} = \frac{\partial }{\partial \theta^u}\left \{ L^w(u) \cdot log [\sigma (X_w^T \theta^u)] + [1 - L^w(u)] \cdot log [1 - \sigma (X_w^T \theta^u)] \right \}$

$L^w(u) \cdot [1 - \sigma (X_w^T \theta^u)]X_w - [1 - L^w(u)] \cdot [\sigma (X_w^T \theta^u)] X_w$

$\left \{ L^w(u) \cdot [1 - \sigma (X_w^T \theta^u)] - [1 - L^w(u)] \cdot [\sigma (X_w^T \theta^u)] \right \} X_w$

$[L^w(u) - \sigma (X_w^T \theta^u) ] X_w$

于是， $\theta^u$ 的更新可写为：

$\theta^u \ := \ \theta^u + \eta [L^w(u) - \sigma (X_w^T \theta^u) ] X_w$

由于在 $\pounds(w, u)$ 中 $\theta^u$ 与 $X_w$ 是对称的，所以 $\pounds(w, u)$ 关于 $X_w$ 的梯度：

$\frac{\partial \pounds(w, u)}{\partial X_w} = [L^w(u) - \sigma (X_w^T \theta^u) ] \theta^u$

用 $\frac{\partial \pounds(w, u)}{\partial X_w}$ 来对上下文词 $\epsilon Context(w)$ 进行更新：

$\eta \sum_{u \epsilon \left \{ w \right \} \cup NEG(w)}\frac{\partial \pounds(w, u)}{\partial X_w}$

以样本 $(C o n t e x t (w), w)$ 为例，训练伪代码如下：

$e = 0$

$X_w = \frac{\sum_{u \epsilon Context(w)} v(u)}{|Context(w)|}$

$\quad u \epsilon \left \{ w \right \} \cup NEG(w) \quad DO$
{
$\sigma(X_w^T\theta^u)$

$\eta [L^w(u) - q]$

$g\theta^u$

$\theta^u := \theta^u + gX_w$
}

$\quad u \epsilon Context(w) \quad DO$
{
$v (u) : = v (u) + e$
}

总结：根据上下文词，对当前词做一次负采样（包括当前词，当前词是正样本），遍历每个样本，累计上下文对每个样本的预测误差，将误差反向更新到每个上下文词上（同时也会更新样本向量）。

三、Skip-gram

根据当前词，预测上下文词，将预测误差反向更新到当前词上，以达到更准确的预测的目的。但word2vec并没有按这个思路训练，而是依然按照CBOW的思路，用上下文中的每个词（注意这里的区别，CBOW是合并了上下文，即 $\sum_{u \epsilon Context(w)}v(u)$ ），对当前词进行预测，再将预测误差反向更新到该上下文词上。

1、Hierarchical Softmax

极大似然： $\prod_{w \epsilon C}p(Context(w)|w)$

极大对数似然： $\pounds = \sum_{w \epsilon C} log \ p(Context(w)|w)$

条件概率： $\prod_{u \epsilon Context(w)} p(u|w)$ ，其中：

$\prod_{j=2}^{l^u} p(d_j^u|v(w), \theta_{j-1}^u)$

$p(d_j^u|v(w), \theta_{j-1}^u) = \left\{\begin{matrix}\sigma (v(w)^T \theta_{j - 1}^u), \quad \quad \ \ \ d_j^u = 0 & \\ & \\ 1 - \sigma (v(w)^T \theta_{j - 1}^u), \quad d_j^u = 1 & \end{matrix}\right.$

写成整体即： $p(d_j^u|v(w), \theta_{j-1}^u) = [\sigma (v(w)^T \theta_{j - 1}^u)]^{1 - d_j^u} \cdot [1 - \sigma (v(w)^T \theta_{j - 1}^u)]^{d_j^u}$ ，代入对数似然函数得：

$\pounds = \sum _{w \epsilon C} log \prod_{u \epsilon Context(w)} \prod_{j=2}^{l^u} p(d_j^u|v(w), \theta_{j-1}^u)$

$\sum _{w \epsilon C} log \prod_{u \epsilon Context(w)} \prod_{j=2}^{l^u} [\sigma (v(w)^T \theta_{j - 1}^u)]^{1 - d_j^u} \cdot [1 - \sigma (v(w)^T \theta_{j - 1}^u)]^{d_j^u}$

$\sum _{w \epsilon C} \sum_{u \epsilon Context(w)} \sum_{j=2}^{l^u} \left \{ (1 - d_j^u) \cdot log \ [\sigma (v(w)^T \theta_{j - 1}^u)] + d_j^u \cdot log [1 - \sigma (v(w)^T \theta_{j - 1}^u)] \right \}$

为求导方便，记： $\pounds(w, u, j) = (1 - d_j^u) \cdot log \ [\sigma (v(w)^T \theta_{j - 1}^u)] + d_j^u \cdot log [1 - \sigma (v(w)^T \theta_{j - 1}^u)]$

$\pounds(w, u, j)$ 关于 $\theta_{j - 1}^u$ 的梯度：

$\frac{\partial \pounds(w, u, j)}{\partial \theta_{j - 1}^u} = \frac{\partial }{\partial \theta_{j - 1}^u}\left \{ (1 - d_j^u) \cdot log \ [\sigma (v(w)^T \theta_{j - 1}^u)] + d_j^u \cdot log [1 - \sigma (v(w)^T \theta_{j - 1}^u)] \right \}$

$d_j^u)[1 - \sigma (v(w)^T \theta_{j - 1}^u)]v(w) - d_j^u [\sigma (v(w)^T \theta_{j - 1}^u)]v(w)$

$\left \{ (1 - d_j^u)[1 - \sigma (v(w)^T \theta_{j - 1}^u)] - d_j^u [\sigma (v(w)^T \theta_{j - 1}^u)] \right \}v(w)$

$d_j^u - \sigma (v(w)^T \theta_{j - 1}^u)] v(w)$

于是， $\theta_{j - 1}^u$ 的更新可写为：

$\theta_{j - 1}^u \ := \ \theta_{j - 1}^u + \eta [1 - d_j^u - \sigma (v(w)^T \theta_{j - 1}^u)] v(w)$

由于在 $\pounds(w, u, j)$ 中 $\theta_{j - 1}^u$ 与 $v (w)$ 是对称的，所以 $\pounds(w, u, j)$ 关于 $v (w)$ 的梯度：

$\frac{\partial \pounds(w, u, j)}{\partial v(w)} = [1 - d_j^u - \sigma (v(w)^T \theta_{j - 1}^u)] \theta_{j - 1}^u$

用 $\frac{\partial \pounds(w, u, j)}{\partial v(w)}$ 来对当前词 $v (w)$ 进行更新：

$\eta \sum_{u \epsilon Context(w)} \sum_{j=2}^{l^u}\frac{\partial \pounds(w, u, j)}{\partial v(w)}$

以样本 $(w, C o n t e x t (w))$ 为例，训练伪代码如下：

$e = 0$

$\quad u \epsilon Context(w) \quad DO$
{
$\quad j = 2:l^u \quad DO$
{
$\sigma(v(w)^T\theta_{j - 1}^u)$

$\eta [1 - d_j^u - q]$

$g\theta_{j - 1}^u$

$\theta_{j - 1}^u := \theta_{j - 1}^u + gv(w)$
}
}

$v (w) : = v (w) + e$

值得注意的是，word2vec并不是按上面的流程进行训练的，而依然按CBOW的思路，对每一个上下文词，预测当前词，分析如下：

极大似然： $\prod_{w \epsilon C}\prod_{u \epsilon Context(w)}p(w|u)$

极大对数似然： $\pounds = \sum_{w \epsilon C}\sum_{u \epsilon Context(w)}log \ p(w|u)$

条件概率： $\prod_{j=2}^{l^w} p(d_j^w|v(u), \theta_{j-1}^w)$ ，其中：

$p(d_j^w|v(u), \theta_{j-1}^w) = \left\{\begin{matrix}\sigma (v(u)^T \theta_{j - 1}^w), \quad \quad \ \ d_j^w = 0 & \\ & \\ 1 - \sigma (v(u)^T \theta_{j - 1}^w), \quad d_j^w = 1 & \end{matrix}\right.$

写成整体即： $p(d_j^w|v(u), \theta_{j-1}^w) = [\sigma (v(u)^T \theta_{j - 1}^w)]^{1 - d_j^w} \cdot [1 - \sigma (v(u)^T \theta_{j - 1}^w)]^{d_j^w}$ ，代入对数似然函数得：

$\pounds = \sum_{w \epsilon C}\sum_{u \epsilon Context(w)} log \prod_{j=2}^{l^w} p(d_j^w|v(u), \theta_{j-1}^w)$

$\sum_{w \epsilon C}\sum_{u \epsilon Context(w)} log \prod_{j=2}^{l^w} [\sigma (v(u)^T \theta_{j - 1}^w)]^{1 - d_j^w} \cdot [1 - \sigma (v(u)^T \theta_{j - 1}^w)]^{d_j^w}$

$\sum_{w \epsilon C}\sum_{u \epsilon Context(w)}\sum_{j=2}^{l^w} \left \{ (1 - d_j^w) \cdot log [\sigma (v(u)^T \theta_{j - 1}^w)] + d_j^w \cdot log [1 - \sigma (v(u)^T \theta_{j - 1}^w)] \right \}$

为求导方便，记： $\pounds(w, u, j) = (1 - d_j^w) \cdot log [\sigma (v(u)^T \theta_{j - 1}^w)] + d_j^w \cdot log [1 - \sigma (v(u)^T \theta_{j - 1}^w)]$

$\pounds(w, u, j)$ 关于 $\theta_{j - 1}^w$ 的梯度：

$\frac{\partial \pounds(w, u, j)}{\partial \theta_{j - 1}^w} = \frac{\partial }{\partial \theta_{j - 1}^w}\left \{ (1 - d_j^w) \cdot log [\sigma (v(u)^T \theta_{j - 1}^w)] + d_j^w \cdot log [1 - \sigma (v(u)^T \theta_{j - 1}^w)] \right \}$

$d_j^w)[1 - \sigma (v(u)^T \theta_{j - 1}^w)]v(u) - d_j^w [\sigma (v(u)^T \theta_{j - 1}^w)]v(u)$

$\left \{ (1 - d_j^w)[1 - \sigma (v(u)^T \theta_{j - 1}^w)] - d_j^w [\sigma (v(u)^T \theta_{j - 1}^w)] \right \} v(u)$

$d_j^w - \sigma (v(u)^T \theta_{j - 1}^w)] v(u)$

于是， $\theta_{j - 1}^w$ 的更新可写为：

$\theta_{j - 1}^w \ := \ \theta_{j - 1}^w + \eta [1 - d_j^w - \sigma (v(u)^T \theta_{j - 1}^w)] v(u)$

由于在 $\pounds(w, u, j)$ 中 $\theta_{j - 1}^w$ 与 $v (u)$ 是对称的，所以 $\pounds(w, u, j)$ 关于 $v (u)$ 的梯度：

$\frac{\partial \pounds(w, u, j)}{\partial v(u)} = [1 - d_j^w - \sigma (v(u)^T \theta_{j - 1}^w)] \theta_{j - 1}^w$

用 $\frac{\partial \pounds(w, u, j)}{\partial v(u)}$ 来对上下文词 $\epsilon Context(w)$ 进行更新：

$\eta \sum_{j=2}^{l^w}\frac{\partial \pounds(w, u, j)}{\partial v(u)}$

以样本 $(w, C o n t e x t (w))$ 为例，训练伪代码如下：

$\quad u \epsilon Context(w) \quad DO$
{
$e = 0$

$\quad j = 2:l^w \quad DO$
{
$\sigma(v(u)^T\theta_{j - 1}^w)$

$\eta [1 - d_j^w - q]$

$g\theta_{j - 1}^w$

$\theta_{j - 1}^w := \theta_{j - 1}^w + gv(u)$
}

$v (u) : = v (u) + e$
}

总结：根据上下文词（用该上下文词来预测当前词），遍历当前词的哈夫曼路径，累计（除根节点以外）每个节点的二分类误差，将误差反向更新到该上下文词上（同时也会更新路径上节点的辅助向量）。

2、Negative Sampling

对 $w$ 的负样本子集 $N E G (w)$ 的每个样本，定义样本标签：

$L^w(\tilde{w}) = \left\{\begin{matrix}1,\quad w = \tilde{w} & \\ & \\ 0,\quad w \neq \tilde{w} & \end{matrix}\right.$

极大似然： $\prod_{w \epsilon C}p(Context(w)|w)$

极大对数似然： $\pounds = \sum_{w \epsilon C} log \ p(Context(w)|w)$

条件概率： $\prod_{u \epsilon Context(w)} p(u|w)$ ，其中：

$\prod_{z \epsilon \left \{ u \right \} \cup NEG(u)} p(z|w)$

$\left\{\begin{matrix}\sigma (v(w)^T \theta^z), \quad \quad \ \ L^u(z) = 1 & \\ & \\ 1 - \sigma (v(w)^T \theta^z), \quad L^u(z) = 0 & \end{matrix}\right.$

写成整体即： $[\sigma (v(w)^T \theta^z)]^{L^u(z)} \cdot [1 - \sigma (v(w)^T \theta^z)]^{1 - L^u(z)}$ ，代入对数似然函数得：

$\pounds = \sum _{w \epsilon C} log \prod_{u \epsilon Context(w)} \prod_{z \epsilon \left \{ u \right \} \cup NEG(u)} p(z|w)$

$\sum _{w \epsilon C} log \prod_{u \epsilon Context(w)} \prod_{z \epsilon \left \{ u \right \} \cup NEG(u)}[\sigma (v(w)^T \theta^z)]^{L^u(z)} \cdot [1 - \sigma (v(w)^T \theta^z)]^{1 - L^u(z)}$

$\sum _{w \epsilon C} \sum_{u \epsilon Context(w)} \sum_{z \epsilon \left \{ u \right \} \cup NEG(u)} \left \{ L^u(z) \cdot log [\sigma (v(w)^T \theta^z)] + [1 - L^u(z)] \cdot log [1 - \sigma (v(w)^T \theta^z)] \right \}$

为求导方便，记： $\pounds(w, u, z) = L^u(z) \cdot log [\sigma (v(w)^T \theta^z)] + [1 - L^u(z)] \cdot log [1 - \sigma (v(w)^T \theta^z)]$

$\pounds(w, u, z)$ 关于 $\theta^z$ 的梯度：

$\frac{\partial \pounds(w, u, z)}{\partial \theta^z} = \frac{\partial }{\partial \theta^z}\left \{ L^u(z) \cdot log [\sigma (v(w)^T \theta^z)] + [1 - L^u(z)] \cdot log [1 - \sigma (v(w)^T \theta^z)] \right \}$

$L^u(z) \cdot [1 - \sigma (v(w)^T \theta^z)]v(w) - [1 - L^u(z)] \cdot [\sigma (v(w)^T \theta^z)]v(w)$

$\left \{ L^u(z) \cdot [1 - \sigma (v(w)^T \theta^z)] - [1 - L^u(z)] \cdot [\sigma (v(w)^T \theta^z)] \right \}v(w)$

$[L^u(z) - \sigma (v(w)^T \theta^z)]v(w)$

于是， $\theta^z$ 的更新可写为：

$\theta^z \ := \ \theta^z + \eta [L^u(z) - \sigma (v(w)^T \theta^z) ] v(w)$

由于在 $\pounds(w, u, z)$ 中 $\theta^z$ 与 $v (w)$ 是对称的，所以 $\pounds(w, u, z)$ 关于 $v (w)$ 的梯度：

$\frac{\partial \pounds(w, u, z)}{\partial v(w)} = [L^u(z) - \sigma (v(w)^T \theta^z) ] \theta^z$

用 $\frac{\partial \pounds(w, u, z)}{\partial v(w)}$ 来对当前词 $v (w)$ 进行更新：

$\eta \sum_{u \epsilon Context(w)} \sum_{z \epsilon \left \{ u \right \} \cup NEG(u)}\frac{\partial \pounds(w, u, z)}{\partial v(w)}$

以样本 $(w, C o n t e x t (w))$ 为例，训练伪代码如下：

$e = 0$

$\quad u \epsilon Context(w) \quad DO$
{
$\quad z \epsilon \left \{ u \right \} \cup NEG(u) \quad DO$
{
$\sigma(v(w)^T\theta^z)$

$\eta [L^u(z) - q]$

$g\theta^z$

$\theta^z := \theta^z + gv(w)$
}
}

$v (w) : = v (w) + e$

同样，word2vec也不是按上面的流程进行训练的，也依然按CBOW的思路，对每一个上下文词，预测当前词，分析如下：

极大似然： $\prod_{w \epsilon C}\prod_{u \epsilon Context(w)}p(w|u)$

极大对数似然： $\pounds = \sum_{w \epsilon C}\sum_{u \epsilon Context(w)}log \ p(w|u)$

条件概率： $\prod_{z \epsilon \left \{ w \right \} \cup NEG(w)} p(z|u)$ ，其中：

$\left\{\begin{matrix}\sigma (v(u)^T \theta^z), \quad \quad \ \ L^w(z) = 1 & \\ & \\ 1 - \sigma (v(u)^T \theta^z), \quad L^w(z) = 0 & \end{matrix}\right.$

写成整体即： $[\sigma (v(u)^T \theta^z)]^{L^w(z)} \cdot [1 - \sigma (v(u)^T \theta^z)]^{1 - L^w(z)}$ ，代入对数似然函数得：

$\pounds =\sum_{w \epsilon C}\sum_{u \epsilon Context(w)}log \prod_{z \epsilon \left \{ w \right \} \cup NEG(w)} p(z|u)$

$\sum_{w \epsilon C}\sum_{u \epsilon Context(w)}log \prod_{z \epsilon \left \{ w \right \} \cup NEG(w)} [\sigma (v(u)^T \theta^z)]^{L^w(z)} \cdot [1 - \sigma (v(u)^T \theta^z)]^{1 - L^w(z)}$

$\sum_{w \epsilon C}\sum_{u \epsilon Context(w)} \sum_{z \epsilon \left \{ w \right \} \cup NEG(w)} \left \{ L^w(z) \cdot log [\sigma (v(u)^T \theta^z)] + [1 - L^w(z)] \cdot log [1 - \sigma (v(u)^T \theta^z)] \right \}$

为求导方便，记： $\pounds(w, u, z) = L^w(z) \cdot log [\sigma (v(u)^T \theta^z)] + [1 - L^w(z)] \cdot log [1 - \sigma (v(u)^T \theta^z)]$

$\pounds(w, u, z)$ 关于 $\theta^z$ 的梯度：

$\frac{\partial \pounds(w, u, z)}{\partial \theta^z} = \frac{\partial }{\partial \theta^z}\left \{ L^w(z) \cdot log [\sigma (v(u)^T \theta^z)] + [1 - L^w(z)] \cdot log [1 - \sigma (v(u)^T \theta^z)] \right \}$

$L^w(z) \cdot [1 - \sigma (v(u)^T \theta^z)]v(u) - [1 - L^w(z)] \cdot \sigma (v(u)^T \theta^z)v(u)$

$\left \{ L^w(z) \cdot [1 - \sigma (v(u)^T \theta^z)] - [1 - L^w(z)] \cdot \sigma (v(u)^T \theta^z) \right \}v(u)$

$[L^w(z) - \sigma (v(u)^T \theta^z)]v(u)$

于是， $\theta^z$ 的更新可写为：

$\theta^z \ := \ \theta^z + \eta [L^w(z) - \sigma (v(u)^T \theta^z) ] v(u)$

由于在 $\pounds(w, u, z)$ 中 $\theta^z$ 与 $v (u)$ 是对称的，所以 $\pounds(w, u, z)$ 关于 $v (u)$ 的梯度：

$\frac{\partial \pounds(w, u, z)}{\partial v(u)} = [L^w(z) - \sigma (v(u)^T \theta^z) ] \theta^z$

用 $\frac{\partial \pounds(w, u, z)}{\partial v(u)}$ 来对上下文词 $\epsilon Context(w)$ 进行更新：

$\eta \sum_{z \epsilon \left \{ w \right \} \cup NEG(w)}\frac{\partial \pounds(w, u, z)}{\partial v(u)}$

以样本 $(w, C o n t e x t (w))$ 为例，训练伪代码如下：

$\quad u \epsilon Context(w) \quad DO$
{
$e = 0$

$\quad z \epsilon \left \{ w \right \} \cup NEG(w) \quad DO$
{
$\sigma(v(u)^T\theta^z)$

$\eta [L^w(z) - q]$

$g\theta^z$

$\theta^u := \theta^u + gv(u)$
}

$v (u) : = v (u) + e$
}

总结：根据上下文词（用该上下文词来预测当前词），对当前词做一次负采样（包括当前词，当前词是正样本），遍历每个样本，累计该上下文词对每个样本的预测误差，将误差反向更新到该上下文词上（同时也会更新样本向量）。

sealir

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
word2vec数学分析

一、CBOW 记： 1、pwp^wpw：从根节点出发，到达www的路径； 2、lwl^wlw：路径pwp^wpw包含节点的个数； 3、p1w,p2w,⋯&amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;ThinSpace;,plwwp_1^w, p_2^w, \cdots, p_{l^w
复制链接

扫一扫