word2vec原理（三）基于Negative Sampling 的模型

最新推荐文章于 2021-12-06 17:55:05 发布

AI-learner6868

最新推荐文章于 2021-12-06 17:55:05 发布

阅读量296

点赞数

分类专栏： NLP 文章标签：算法人工智能自然语言处理

本文链接：https://blog.csdn.net/l491899327/article/details/108062762

版权

NLP 专栏收录该内容

5 篇文章 0 订阅

订阅专栏

基于Negative Sampling 的模型

1.CBOW模型
2. skip-gram模型
3.负采样算法

此章节将介绍基于Negative Sampling的CBOW和skip-gram模型。Negative Sampling（简称NEG）是Tomas Mikolov等人提出的，它是NCG（Noise Contrastive Estimation）的一个简化版本，目的是为了提高模型的训练速度和改善所得词向量的质量。与Hierarchical Softmax相比，NEG不再使用复杂的huffman树，而是采用随机负采样，能大幅度提高性能，因而成为了hierarchical Softman的一种替代。

1.CBOW模型

在cbow模型中，已知词的上下文 $c o n t e x t (w)$ ，需要预测 $w$ ,因此，对于给定的 $c o n t e x t (w)$ ，词 $w$ 就是一个正样本，其他词就是负样本，但是负样本那么多，该如何选取呢？这个就得说负采样算法了，此处先略过，先讲解一下基于negative sampling的原理。

1.1cbow原理

假定现在已经选好了一个关于 $w$ 的负采样子集 $NEG(w)\neq \emptyset$ ,且对 $\forall \widetilde{w} \in D$ ,定义
$L^w(\widetilde{w})= \begin{cases} 1& \widetilde{w}=w\\ 0& \widetilde{w}\neq w \end{cases}$
表示词 $\widetilde{w}$ 的标签，即正样本的标签为1，负样本的标签为0.
对于一个给定的正样本 $(c o n t e x t (w), w)$ ,我们希望最大化
$\prod_{u \in w\bigcup NEG(w)} p(u|context(w))$
其中
$\begin{cases} \sigma(x_w^T \theta^u)& L^w(u)=1\\ 1-\sigma(x_w^T \theta^u)& L^w(u)=0 \end{cases}$
或者写成整体表达式
$[\sigma(x_w^T \theta^u)]^{L^w(u)} \cdot [1-\sigma(x_w^T \theta^u)]^{1-L^w(u)}$
这里 $x_w$ 扔表示 $c o n t e x t (w)$ 中各词的词向量之和，而 $\theta^u \in \mathbb{R}^m$ 表示词 $u$ 对应的一个向量，为待训练参数
为什么要最大化 $g (w)$ 呢？首先可以看看 $g (w)$ 的表达式
$\sigma(x_w^T \theta^w) \prod_{u \in NEG(w)}[1-\sigma(x_w^T \theta^u)]$
其中 $\sigma(x_w^T \theta^w)$ 表示上下文为 $c o n t e x t (w)$ 时，预测中心词为 $w$ 的概率，而 $\sigma(x_w^T \theta^u),u \in NEG(w)$ 则表示当上下文为 $c o n t e x t (w)$ 时，预测中心词为 $u$ 的概率(此处可以看做是一个二分类问题，最大似然函数).从形式上看，最大化 $g (w)$ ，相当于最大化 $\sigma(x_w^T \theta^w)$ ,同时最小化所有的 $\sigma(x_w^T \theta^u),u\in NEG(w)$ .这不正是我们希望的：增大正样本的概率的同时降低负样本的概率。
于是，对于一个语料库C，函数
$\prod_{w \in c} g(w)$
就可以作为整体优化的目标，为了计算方便，对G取对数，最终的目标函数就是
$\begin{aligned} L = logG & = log \prod_{w \in C} g(w) \\ &= \sum_{w \in C} log \quad g(w) \\ &= \sum_{w \in C} log \prod_{u \in\{w\}\bigcup NEG(w) } \{ [\sigma(x_w^T \theta^u)]^{L^w(u)} \cdot [1-\sigma(x_w^T \theta^u)]^{1-L^w(u)}\} \\ &= \sum_{w \in C} \sum_{u \in\{w\}\bigcup NEG(w) } \{ L^w(u) \cdot log[\sigma(x_w^T \theta^u)] +[1-L^w(u) ] \cdot log[1-\sigma(x_w^T \theta^u)]\} \end{aligned}$

1.2 cbow 梯度上升

为了梯度推导方便，令
$L^w(u) \cdot log[\sigma(x_w^T \theta^u)] +[1-L^w(u) ] \cdot log[1-\sigma(x_w^T \theta^u)]$
接下来利用随机梯度上升法计算梯度
$\begin{aligned} \frac{ \partial L(w,u)}{ \partial \theta^u} & = \frac{ \partial }{ \partial \theta^U} \{ L^w(u) \cdot log[\sigma(x_w^T \theta^u)] +[1-L^w(u) ] \cdot log[1-\sigma(x_w^T \theta^u)] \} \\ &= L^w(u) [1-\sigma(x_w^T \theta^u)]x_w - [1-L^w(u)] \sigma(x_w^T \theta^u) x_w\\ &= \{L^w(u) [1-\sigma(x_w^T \theta^u)] - [1-L^w(u)] \sigma(x_w^T \theta^u) \}x_w \\ &= [L^w(u) - \sigma(x_w^T \theta^u) ]x_w \end{aligned}$
于是， $\theta^u$ 的更新公式可以写为
$\theta^u:=\theta^u + \eta[L^w(u) - \sigma(x_w^T \theta^u) ]x_w$
且
$\frac{ \partial L(w,u)}{ \partial x_u}= [L^w(u) - \sigma(x_w^T \theta^u)]\theta^u$
于是利用 $\frac{ \partial L(w,u)}{ \partial x_u}$ 可得 $v(\widetilde{w}),\widetilde{w} \in context(w)$ 的更新公式
$v(\widetilde{w}) := v(\widetilde{w}) + \eta \sum_{u \in w\bigcup NEG(w)} \frac{ \partial L(w,u)}{ \partial x_w},\widetilde{w} \in context(w)$

1.3 cbow更新伪代码

e=0
$x_w = \sum_{u \in context(w)} v(u)$
For $\quad u \in w\bigcup NEG(w) DO$
{
3.1 $\quad q = \sigma(x_w^T \theta^u)$
3.2 $\quad g= \eta (L^w(u) - q)$
3.3 $\quad e:=e+g \theta^{u}$
3.4 $\quad \theta^{u}:=\theta^{u} + gx_w$
}
For $\quad u \in context(w)$
{
$\qquad v(u):=v(u) + e$
}
注释：结合伪代码，给出与word2vec源码中的对应关系如下:syn0对应 $v(\cdot)$ ,syn1neg对应 $\theta^{u}$ ,neu1对应 $x_w$ ,neu1e对应e

2. skip-gram模型

此章节将介绍基于negative sampling的skip-gram模型。
skip-gram模型：在已经中心词 $w$ 的前提下，预测 $w$ 的背景词 $c o n t e x t (w)$ 的词向量

2.1 skip-gram 原理

首先，定义目标函数为
$\prod_{w \in C} \prod_{w \in context(w)} g(u)$
这里， $\prod_{w \in context(w)} g(u)$ 表示对于一个给定的样本 $(w, c o n t e x t (w))$ ,我们希望最大化的量
$\prod_{z \in \{u\} \bigcup NEG(w)} p(z|w)$
其中 $N E G (w)$ 表示处理词u时生成的负样本子集，条件概率为
$\begin{cases} \sigma(v_w^T \theta^z)& L^u(z)=1\\ 1-\sigma(v_w^T \theta^z)& L^u(z)=0 \end{cases}$
或者写成整体表达式
$[\sigma(v_w^T \theta^z)]^{L^u(z)} \cdot [1-\sigma(x_w^T \theta^z)]^{1-L^u(z)}$
同时，我们取G的对数，则最终的目标函数为
$\begin{aligned} L = logG & = log \prod_{w \in C} \prod_{u \in context(w)} g(u) \\ &= \sum_{w \in C} \sum_{u \in context(w)} log \ g(u) \\ &= \sum_{w \in C} \sum_{u \in context(w)} log \prod_{z \in \{u\} \bigcup NEG(u)} p(z|w) \\ &= \sum_{w \in C} \sum_{u \in context(w)} \sum_{z \in \{u\} \bigcup NEG(u)} log\{[\sigma(v_w^T \theta^z)]^{L^u(z)} \cdot [1-\sigma(x_w^T \theta^z)]^{1-L^u(z)} \} \\ &= \sum_{w \in C} \sum_{u \in context(w)} \sum_{z \in \{u\} \bigcup NEG(u)} \{L^u(z) \cdot log[\sigma(v_w^T \theta^z)] + [1-L^u(z)] \cdot log[1-\sigma(v_w^T \theta^z)]\} \end{aligned}$

2.2 skip-gram 随机梯度上升法

值得一提的是，word2vec源码中基于negative sampling 的skip-gram模型并不是基于此目标函数进行编程的，因为如果是基于上述目标函数进行编程的话，那么对于每个 $(w, c o n t e x t (w))$ ，需要针对 $c o n t e x t (w)$ 中的每一个词进行负采样，而word2vec源码中只是针对 $w$ 进行了 $∣ c o n t e x t (w) ∣ 次负采样$
那么，word2vec源码这一块的依据是什么？
与hierachical softmax的skip-gram一样的处理方式，因为我们希望
$\prod_{w \in C} \prod_{u \in context(w)} p(u|w)$
最大的同时，也希望
$\prod_{w \in C} p(w|context(w))$
最大。
所以，skip-gram在源码中实际用的还是cbow模型，只是将原本通过求均值做整体用的上下文 $c o n t e x t (w)$ 直接输入，相当于输入从1个均值向量变成了2c个词自身的词向量。
首先，我们希望最大化
$\prod_{\widetilde{w} \in context(w)} \prod_{u \in\{w\}\bigcup NEG^{\widetilde{w}}(w) } p(u|\widetilde{w})$
其中
$p(u|\widetilde{w})= \begin{cases} \sigma(v_{\widetilde{w}}^T \theta^u)& L^w(u)=1\\ 1-\sigma(v_{\widetilde{w}}^T \theta^u)& L^w(u)=0 \end{cases}$
或者写成整体表达式
$p(u|\widetilde{w}) = [\sigma(v_{\widetilde{w}}^T \theta^u]^{L^w(u)} \cdot [1-\sigma(v_{\widetilde{w}]}^{1-L^w(u)}$
这里 $NEG^{\widetilde{w}}(w)$ 表示词 $\widetilde{w}$ 时生成的负样本子集，于是对于一个给定的语料库C，函数
$\prod_{w \in C} g(w)$
就可以作为整体优化的目标。同样，我们取G的对数，最终的目标函数就是
$\begin{aligned} L = logG & = log \prod_{w \in C} g(w) \\ &= \sum_{w \in C} log \quad g(w) \\ &= \sum_{w \in C} log \prod_{\widetilde{w} \in context(w) } \prod_{u \in\{w\}\bigcup NEG^{\widetilde{w}}(w) } \{ [\sigma(v_{\widetilde{w}}^T \theta^u)]^{L^w(u)} \cdot [1-\sigma(v_{\widetilde{w}}^T \theta^u)]^{1-L^w(u)}\} \\ &= \sum_{w \in C} \sum_{\widetilde{w} \in context(w) } \prod_{u \in\{w\}\bigcup NEG^{\widetilde{w}}(w) } \{ L^w(u) \cdot log[\sigma(v_{\widetilde{w}}^T \theta^u)] +[1-L^w(u) ] \cdot log[1-\sigma(v_{\widetilde{w}}^T \theta^u)]\} \end{aligned}$
为了方便起见，将三重求和符号下花括号里的内容简记为 $L(w,\widetilde{w},u)$ ，即
$L(w,\widetilde{w},u) = L^w(u) \cdot log[\sigma(v_{\widetilde{w}}^T \theta^u)] +[1-L^w(u) ] \cdot log[1-\sigma(v_{\widetilde{w}}^T \theta^u)]$
接下来利用随机梯度上升法对此目标哦函数进行优化。
$\begin{aligned} \frac{ \partial L(w,\widetilde{w},u)}{ \partial \theta^u} & = \frac{ \partial }{ \partial \theta^u} \{ L^w(u) \cdot log[\sigma(v_{\widetilde{w}}^T \theta^u)] +[1-L^w(u) ] \cdot log[1-\sigma(v_{\widetilde{w}}^T \theta^u)] \} \\ &= L^w(u) [1-\sigma(v_{\widetilde{w}}^T \theta^u)]v_{\widetilde{w}} - [1-L^w(u)] \sigma(v_{\widetilde{w}}^T \theta^u) v_{\widetilde{w}}\\ &= \{L^w(u) [1-\sigma(v_{\widetilde{w}}^T \theta^u)] - [1-L^w(u)] \sigma(v_{\widetilde{w}}^T \theta^u) \}v_{\widetilde{w}} \\ &= [L^w(u) - \sigma(v_{\widetilde{w}}^T \theta^u) ]v_{\widetilde{w}} \end{aligned}$
于是， $\theta^u$ 的更新公式可以写为
$\theta^u:=\theta^u + \eta[L^w(u) - \sigma(v_{\widetilde{w}}^T \theta^u) ]v_{\widetilde{w}}$
且
$\frac{ \partial L(w,\widetilde{w},u)}{ \partial v_{\widetilde{w}}}= [L^w(u) - \sigma(v_{\widetilde{w}}^T \theta^u)]\theta^u$
于是利用 $\frac{ \partial L(w,\widetilde{w},u)}{ \partial x_u}$ 可得 $v(\widetilde{w}),\widetilde{w} \in context(w)$ 的更新公式
$v(\widetilde{w}) := v(\widetilde{w}) + \eta \sum_{u \in w\bigcup NEG^{\widetilde{w}}(w)} \frac{ \partial L(w,\widetilde{w},u)}{ \partial v_{\widetilde{w}}},\widetilde{w} \in context(w)$

2.3 skip-gram 参数更新伪代码

{
$\quad \widetilde{w} =context(w) \quad DO$ ：
$\qquad e=0$
$\qquad for \quad u = \{w\} \bigcup NEG^{\widetilde{w}}(w) \quad DO$ ：
$\qquad \qquad q = \sigma(v_{\widetilde{w}}^T \theta^u)$
$\qquad \qquad g = \eta (L^w(u)- q)$
$\qquad\qquad e:=e+g \theta^{u}$
$\qquad\qquad \theta^{u}:=\theta^{u} + gv_{\widetilde{w}}$
$\qquad\qquad v_{\widetilde{w}}:= v_{\widetilde{w}}+e$
}

3.负采样算法

顾名思义，在基于negative sampling的CBOW和skip-gram模型中，负采样是重要的环节，对定一个给定的词 $w$ ，如何生成 $N E G (w)$ 呢？

AI-learner6868

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
1
评论
word2vec原理（三）基于Negative Sampling 的模型

基于Negative Sampling 的模型1.CBOW模型1.1cbow原理1.2 cbow 梯度上升1.3 cbow更新伪代码2. skip-gram模型2.1 skip-gram 原理2.2 skip-gram 随机梯度上升法2.3 skip-gram 参数更新伪代码3.负采样算法此章节将介绍基于Negative Sampling的CBOW和skip-gram模型。Negative Sampling（简称NEG）是Tomas Mikolov等人提出的，它是NCG（Noise Contrastive
复制链接

扫一扫