【word2vec】篇三：基于Negative Sampling 的 CBOW 模型和 Skip-gram 模型

最新推荐文章于 2022-05-26 18:40:49 发布

VariableX

最新推荐文章于 2022-05-26 18:40:49 发布

阅读量948

点赞数 1

分类专栏：自然语言处理基础文章标签： nlp 算法

本文链接：https://blog.csdn.net/VariableX/article/details/106532351

版权

本文是word2vec系列的第三篇，重点介绍基于Negative Sampling的CBOW和Skip-gram模型。负采样算法通过选取高频词作为负样本，优化了求解过程。CBOW模型中，使用负采样优化了目标函数，通过随机梯度上升更新参数。Skip-gram模型虽然原理想预测上下文，但在实现中仍采用CBOW思想。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

系列文章：

Negative Sampling是这么一种求解word2vec模型的方法，它摒弃了霍夫曼树，采用了Negative Sampling（负采样）的方法来求解。

负采样算法

在CBOW模型中，已知词 $w$ 的上下文 $c o n t e x t (w)$ 需要预测 $w$ 。因此，对于给定的 $c o n t e x t (w)$ ，词 $w$ 就是一个正样本，其它词就是负样本了。在Skip-gram中同样也存在正负样本问题。负样本那么多，该如何选取呢？这就是Negative Sampling（负采样）问题。也就是对于给定的词，如何生成其负样本子集 $N E G (w)$ ？

采用的基本要求是：词典 $D$ 中的词在语料 $C$ 中出现的次数有高有低，对于那些高频词，被选为负样本的概率就应该比较大，反之，对于那些低频词，其被选中的概率就应该比较小。本质上就是一个带权采样问题。

word2vec采用的负采样方法如下：

（2）首先将一段长度为1的线段分成长度不相等的 $V$ 份( $V$ 是词汇表的大小)，每份对应词汇表的一个词。高频词对应长线段，低频词对应短线段。每个词的线段长度由下式决定：
$\frac{count(w)}{\sum\limits_{u \in D} count(u)}$
在word2vec中，分子和分母都取了3/4次幂如下：
$\frac{count(w)^{3/4}}{\sum\limits_{u \in D} count(u)^{3/4}}$
（2）在引入一个长度为1的线段进行等距划分成 $M$ 份，其中 $M > > N$ ，如下图所示：

在这里插入图片描述

如图所示，M份中的每一份都会落在某一个词对应的线段上。

（3）采样时，先从M个位置中采出neg个位置，再匹配到这neg个位置对应的词就是负词。如假设我们先采出 $m_3$ ，对应 $I_2$ ， $I_2$ 对应的词就是负词。

注：在word2vec中，M取值默认为 $10^8$ 。

CBOW模型

假设已经采样一个关于 $w$ 的非空负样本子集 $N E G (w)$ ，且对于 $\tilde w \in D$ ，定义：
$L^w(\tilde w ) = \begin{cases} 1, \quad \tilde w = w \\ 0, \quad \tilde w \ne w \end{cases}$
表示词 $\tilde w$ 的标签。即正样本的标签为1，负样本的标签为0。