算一算-Word2Vec（2）

最新推荐文章于 2021-11-18 20:29:48 发布

kingsam_

最新推荐文章于 2021-11-18 20:29:48 发布

阅读量1.2k

点赞数 4

分类专栏：机器学习理论学习机器学习文章标签： Word2Vec 负采样原理

本文链接：https://blog.csdn.net/qq_22238533/article/details/80870595

版权

机器学习理论学习同时被 2 个专栏收录

29 篇文章 14 订阅

订阅专栏

机器学习

29 篇文章 4 订阅

订阅专栏

摘要：

上一篇文章里，我们详细的介绍了Word2Vec下SkipGram的层级SoftMax的计算流程，在这篇文章里，我们将介SkipGram下的Negative Sampling的计算流程。

训练参数

和上篇文章一样，我们使用同样的参数以及训练语料，具体如下：
这里写图片描述

训练语料如下：
这里写图片描述

SkipGram & Negative Samping 训练过程

预备工作：

和层级SoftMax一样，我们需要对词向量进行初始化：
这里写图片描述
接下来，构造的样本和上一篇文章的一样，具体如下：

关于负采样：

在讨论负采样之前，我们先来思考一个问题，对于训练样本 $\Large \{cat,say\}$ ，当输入是 $cat$ 时，输出是是 $say$ ，也就是说输出是 $say$ 时算正样本，输出为其他时单词时比如 $dog、woof、ele、pig、monkey$ 都算是一个负样本。
那么当词汇表的非常巨大的时候，负样本的计算开销是非常庞大的。负采样的核心思想其实就是：每次在计算负样本的时候，只抽取其中的若干个词（设定参数）作为负样本，具体来说，其中一个最简单的负采样的思路如下：

首先我们统计每个词的词频：
这里写图片描述

之后，我们根据频率按累加的方式在一个长度为1的线段上把这些词分段画出：
这里写图片描述

有了这个之后，我们就可以在 $[0,1]$ 中随机产生一个随机数来选择我的抽样词。可以看到，频率越大的词被抽中的概率也越大。

最后，我们参考文章可以推导出下面的算法流程图：

Algorithm 2:SkipGram−NegativeSampling____________________________________________________________________ Input:w,中心词wInput:Negative,负采样的个数Input:Context(w)，中心词w的上下文集合Input:V(w),中心词w的词向量Input:θindex,辅助向量For U in Context(w) do:       e=0       For d in U∪Neg{U}Negative do :               index=get_index{d}               f=σ(V(w)Tθindex)               g=η(Label{d})−f)               e:=e+gθindex               θindex:=θindex+gV(w)       V(w):=V(w)+eEnd A l g o r i t h m   2 : S k i p G r a m − N e g a t i v e S a m p l i n g _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _   I n p u t : w , 中 心 词 w I n p u t : N e g a t i v e , 负 采 样 的 个 数 I n p u t : C o n t e x t ( w ) ， 中 心 词 w 的 上 下 文 集 合 I n p u t : V ( w ) , 中 心 词 w 的 词 向 量 I n p u t : θ i n d e x , 辅 助 向 量 F o r   U   i n   C o n t e x t ( w )   d o :               e = 0               F o r   d   i n   U ∪ N e g { U } N e g a t i v e   d o   :                               i n d e x = g e t _ i n d e x { d }                               f = σ ( V ( w ) T θ i n d e x )                               g = η ( L a b e l { d } ) − f )                               e := e + g θ i n d e x                               θ i n d e x := θ i n d e x + g V ( w )               V ( w ) := V ( w ) + e E n d

$\\ {\boxed {\large {\mathbf {Algorithm\ 2:SkipGram- Negative Sampling}}\\ \_\_\_\_\_\_\_\_\_\_\_\_\_\_\_\_\_\_\_\_\_\_\_\_\_\_\_\_\_\_\_\_\_\_\_\_\_\_\_\_\_\_\_\_\_\_\_\_\_\_\_\_\_\_\_\_\_\_\_\_\_\_\_\_\_\_\_\_\\\ \large Input:w,中心词w\\ \large Input:Negative,负采样的个数\\ \large Input:Context(w)，中心词w的上下文集合\\ \large Input:\mathbf{V}(w),中心词w的词向量\\ \large Input:\boldsymbol{\theta}_{index} ,辅助向量 \\ \large For \ U\ in\ Context(w)\ do :\\ \ \ \ \ \ \ \ \large \boldsymbol{e}=\boldsymbol{0}\\ \ \ \ \ \ \ \ \large For\ d \ in\ {U}∪Neg\{U\}_{Negative}\ do\ : \\ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \large index=get\_index\{d\}\\ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \large f=\sigma\left(\boldsymbol{V}(w)^T\boldsymbol{\theta}_{index}\right) \\ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \large g=\eta(Label\{d\})-f)\\ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \large \boldsymbol{e}:=\boldsymbol{e}+g\boldsymbol{\theta}_{index}\\ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \large \boldsymbol{\theta}_{index}:=\boldsymbol{\theta}_{index}+g\boldsymbol{V}(w)\\ \ \ \ \ \ \ \ \large \boldsymbol{V}(w):=\boldsymbol{V}(w)+\boldsymbol{e}\\ \large End\\ } }$

我们先简单的说明一下流程图中的参数含义(部分已经在前面的文章解释了）

1. $Negative$ 表示负采样的个数。比如对于本文的例子，词汇表的长度为6，当参数Negative设置为2的时候即每次抽取2个词作为负样本。

2. $Neg\{U\}_{Negative}$ 表示对词 $U$ 以外的词做负采样，采样的个数为 $Negative$ 个。
比如说对于训练样本 $\Large \{cat,say\}$ , $Neg\{say\}_{2}$ 其结果就是在 $dog、woof、ele、pig、monkey$ 抽取2个词作为负样本。

3. $get\_index\{d\}$ 其实就是找到词 $d$ 的编号。后面计算过程中会说明。

4. $Label\{d\}$ 为词 $d$ 的标签。
比如说对于训练样本 $\Large \{cat,say\}$ , $Label\{say\}$ 就是1。当抽取出来的负样本为 $Neg\{say\}_{2}=\{dog,woof\}$ 时
$Label\{dog\}=0$ , $Label\{woof\}=0$ 。

计算

通过上面一系列的铺垫，其实有些问题可能还是很模糊，结合下面的计算，做进一步的说明。
我们先初始化 $\boldsymbol{\theta}_{index}辅助向量矩阵$ ：

word	$\theta_{index}$	1	2	3	4	5
$cat$	$\theta_{0}$	0	0	0	0	0
$say$	$\theta_{1}$	0	0	0	0	0
$dog$	$\theta_{2}$	0	0	0	0	0
$woof$	$\theta_{3}$	0	0	0	0	0
$ele$	$\theta_{4}$	0	0	0	0	0
$pig$	$\theta_{5}$	0	0	0	0	0
$monkey$	$\theta_{6}$	0	0	0	0	0

第一次训练：

步骤0：此时，
$w=cat$
$Context(w)=\{say\}$
$\boldsymbol{V}(cat)=[0.054, -0.090, -0.038, 0.063, -0.015]$

步骤1：
初始化向量 $\boldsymbol{e}=[0,0,0,0,0]$

步骤2：
首先计算正样本 $say$ ：
$index=get\_index\{say\}=1$
$Label\{say\}=1$
$f=\sigma\left(\boldsymbol{V}(w)^T\boldsymbol{\theta}_{index}\right)$ ==>
$\sigma\left(\boldsymbol{V}(cat)^T\boldsymbol{\theta}_{1}\right)=\sigma\left(0.054*0 -0.090*0 -0.038*0 0.063*0 -0.015*0\right)=0.5$

步骤3：
$g=\eta(Label\{say\}-f)=0.95*(1-0.5)=0.475$

步骤4：
$\boldsymbol{e}=\boldsymbol{e}+g\boldsymbol{\theta}_{index}$ ==>
$\boldsymbol{e}=\boldsymbol{e}+g\boldsymbol{\theta}_{1}=[0,0,0,0,0]+0.475*[0,0,0,0,0]=[0,0,0,0,0]$

步骤5：
$\boldsymbol{\theta}_{index}=\boldsymbol{\theta}_{index}+g\boldsymbol{V}(w)$ ==>
$\boldsymbol{\theta}_{1}=\boldsymbol{\theta}_{1}+g\boldsymbol{V}(cat)=[0,0,0,0,0]+0.475*[0.054, -0.090, -0.038, 0.063, -0.015]=[0.026,-0.043,-0.018,0.030,-0.007]$

步骤6：
计算完正样本后，我们根据 $Negative=2$ 参数设置，我们需要抽取两个词作为负样本，这里假设抽取的词为 $Neg\{say\}_{2}=\{dog,woof\}$

步骤2：（计算负样本 $dog$ ）
$index=get\_index\{dog\}=2$
$Label\{dog\}=0$
$f=\sigma\left(\boldsymbol{V}(w)^T\boldsymbol{\theta}_{index}\right)$ ==>
$\sigma\left(\boldsymbol{V}(cat)^T\boldsymbol{\theta}_{2}\right)=\sigma\left(0.054*0 -0.090*0 -0.038*0 0.063*0 -0.015*0\right)=0.5$

步骤3：
$g=\eta(Label\{dog\}-f)=0.95*(0-0.5)=-0.475$

步骤4：
$\boldsymbol{e}=\boldsymbol{e}+g\boldsymbol{\theta}_{index}$ ==>
$\boldsymbol{e}=\boldsymbol{e}+g\boldsymbol{\theta}_{2}=[0,0,0,0,0]-0.475*[0,0,0,0,0]=[0,0,0,0,0]$

步骤5：
$\boldsymbol{\theta}_{index}=\boldsymbol{\theta}_{index}+g\boldsymbol{V}(w)$ ==>
$\boldsymbol{\theta}_{2}=\boldsymbol{\theta}_{2}+g\boldsymbol{V}(cat)=[0,0,0,0,0]-0.475*[0.054, -0.090, -0.038, 0.063, -0.015]=[-0.026,0.043,0.018,-0.030,0.007]$

计算完一个负样本，还有一个负样本：

步骤2：（计算负样本 $woof$ ）
$index=get\_index\{woof\}=3$
$Label\{woof\}=0$
$f=\sigma\left(\boldsymbol{V}(w)^T\boldsymbol{\theta}_{index}\right)$ ==>
$\sigma\left(\boldsymbol{V}(cat)^T\boldsymbol{\theta}_{3}\right)=\sigma\left(0.054*0 -0.090*0 -0.038*0 0.063*0 -0.015*0\right)=0.5$

步骤3：
$g=\eta(Label\{woof\}-f)=0.95*(0-0.5)=-0.475$

步骤4：
$\boldsymbol{e}=\boldsymbol{e}+g\boldsymbol{\theta}_{index}$ ==>
$\boldsymbol{e}=\boldsymbol{e}+g\boldsymbol{\theta}_{3}=[0,0,0,0,0]-0.475*[0,0,0,0,0]=[0,0,0,0,0]$

步骤5：
$\boldsymbol{\theta}_{index}=\boldsymbol{\theta}_{index}+g\boldsymbol{V}(w)$ ==>
$\boldsymbol{\theta}_{3}=\boldsymbol{\theta}_{3}+g\boldsymbol{V}(cat)=[0,0,0,0,0]-0.475*[0.054, -0.090, -0.038, 0.063, -0.015]=[-0.026,0.043,0.018,-0.030,0.007]$

步骤7：更新词向量 $\boldsymbol{V}(w)$
$\boldsymbol{V}(w)=\boldsymbol{V}(w)+e$ ==>
$\boldsymbol{V}(w)=[0.054, -0.090, -0.038, 0.063, -0.015]+[0,0,0,0,0]=[0.054, -0.090, -0.038, 0.063, -0.015]$

至此，对于训练样本 $\Large \{cat,say\}$ 才训练完毕。
这里简单汇总一下训练的结果：

对于辅助向量 $\boldsymbol{\theta}_{index}$ ：

word	$\theta_{index}$	1	2	3	4	5
$cat$	$\theta_{0}$	0	0	0	0	0
$say$	$\theta_{1}$	0.026	-0.043	-0.018	0.030	-0.007
$dog$	$\theta_{2}$	-0.026	0.043	0.018	-0.030	0.007
$woof$	$\theta_{3}$	-0.026	0.043	0.018	-0.030	0.007
$ele$	$\theta_{4}$	0	0	0	0	0
$pig$	$\theta_{5}$	0	0	0	0	0
$monkey$	$\theta_{6}$	0	0	0	0	0

接着，我们需要训练下一个语料： $\Large \{say,cat\}$

步骤0：此时，
$w=say$
$Context(w)=\{cat\}$
$\boldsymbol{V}(say)=[-0.010,-0.073, 0.065, -0.042,-0.044]$

步骤1：
初始化向量 $\boldsymbol{e}=[0,0,0,0,0]$

步骤2：
首先计算正样本 $cat$ ：
$index=get\_index\{cat\}=0$
$Label\{cat\}=1$
$f=\sigma\left(\boldsymbol{V}(w)^T\boldsymbol{\theta}_{index}\right)$ ==>
$\sigma\left(\boldsymbol{V}(say)^T\boldsymbol{\theta}_{0}\right)=\sigma\left(-0.010*0-0.073*0+0.065*0 -0.042*0-0.044*0\right)=0.5$

步骤3：
$g=\eta(Label\{cat\}-f)=0.95*(1-0.5)=0.475$

步骤4：
$\boldsymbol{e}=\boldsymbol{e}+g\boldsymbol{\theta}_{index}$ ==>
$\boldsymbol{e}=\boldsymbol{e}+g\boldsymbol{\theta}_{0}=[0,0,0,0,0]+0.475*[0,0,0,0,0]=[0,0,0,0,0]$

步骤5：
$\boldsymbol{\theta}_{index}=\boldsymbol{\theta}_{index}+g\boldsymbol{V}(w)$ ==>
$\boldsymbol{\theta}_{0}=\boldsymbol{\theta}_{0}+g\boldsymbol{V}(say)=[0,0,0,0,0]+0.475*[-0.010,-0.073, 0.065, -0.042,-0.044]=[-0.005,-0.035,0.031,-0.020,-0.021]$

步骤6：
计算完正样本后，我们根据 $Negative=2$ 参数设置，我们需要抽取两个词作为负样本，这里假设抽取的词为 $Neg\{cat\}_{2}=\{dog,ele\}$

步骤2：（计算负样本 $dog$ ）
$index=get\_index\{dog\}=2$
$Label\{dog\}=0$
$f=\sigma\left(\boldsymbol{V}(w)^T\boldsymbol{\theta}_{index}\right)$ ==>
$\sigma\left(\boldsymbol{V}(say)^T\boldsymbol{\theta}_{2}\right)=\sigma\left(-0.010*(-0.026) -0.073*0.043 +0.065*0.018-0.042*-0.030 -0.044*0.007\right)≈0.5$

步骤3：
$g=\eta(Label\{dog\}-f)=0.95*(0-0.5)=-0.475$

步骤4：
$\boldsymbol{e}=\boldsymbol{e}+g\boldsymbol{\theta}_{index}$ ==>
$\boldsymbol{e}=\boldsymbol{e}+g\boldsymbol{\theta}_{2}=[0,0,0,0,0]-0.475*[-0.026,0.043,0.018,-0.030,0.007]=[0.012,-0.020,-0.009,0.014,-0.003]$

步骤5：
$\boldsymbol{\theta}_{index}=\boldsymbol{\theta}_{index}+g\boldsymbol{V}(w)$ ==>
$\boldsymbol{\theta}_{2}=\boldsymbol{\theta}_{2}+g\boldsymbol{V}(say)=[-0.026,0.043,0.018,-0.030,0.007]-0.475*[-0.010,-0.073, 0.065, -0.042,-0.044]=[-0.021,0.078,-0.013,-0.010,0.028]$

计算完一个负样本，还有一个负样本：

步骤2：（计算负样本 $ele$ ）
$index=get\_index\{ele\}=4$
$Label\{ele\}=0$
$f=\sigma\left(\boldsymbol{V}(w)^T\boldsymbol{\theta}_{index}\right)$ ==>
$\sigma\left(\boldsymbol{V}(say)^T\boldsymbol{\theta}_{4}\right)=\sigma\left(-0.010*0-0.073*0+0.065*0 -0.042*0-0.044*0\right)=0.5$

步骤3：
$g=\eta(Label\{ele\}-f)=0.95*(0-0.5)=-0.475$

步骤4：
$\boldsymbol{e}=\boldsymbol{e}+g\boldsymbol{\theta}_{index}$ ==>
$\boldsymbol{e}=\boldsymbol{e}+g\boldsymbol{\theta}_{4}=[0,0,0,0,0]-0.475*[0,0,0,0,0]=[0,0,0,0,0]$

步骤5：
$\boldsymbol{\theta}_{index}=\boldsymbol{\theta}_{index}+g\boldsymbol{V}(w)$ ==>
$\boldsymbol{\theta}_{4}=\boldsymbol{\theta}_{4}+g\boldsymbol{V}(say)=[0,0,0,0,0]-0.475*[-0.010,-0.073, 0.065, -0.042,-0.044]=[0.005,0.035,-0.031,0.020,0.021]$

步骤7：更新词向量 $\boldsymbol{V}(w)$
$\boldsymbol{V}(w)=\boldsymbol{V}(w)+e$ ==>
$\boldsymbol{V}(w)=[-0.010,-0.073, 0.065, -0.042,-0.044]+[0.012,-0.020,-0.009,0.014,-0.003]=[0.002, -0.093, -0.056, -0.028, -0.047]$

至此，第二个训练样本也训练完了，后面剩余的流程也类似。

以上的内容就是Neagtive Sampling的计算流程。

kingsam_

关注

4
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
算一算-Word2Vec（2）

摘要：上一篇文章里，我们详细的介绍了Word2Vec下SkipGram的层级SoftMax的计算流程，在这篇文章里，我们将介SkipGram下的Negative Sampling的计算流程。训练参数和上篇文章一样，我们使用同样的参数以及训练语料，具体如下：训练语料如下： SkipGram &amp;amp;amp;amp;amp;amp;amp; Negative Samping 训练过程预备工作：和层...
复制链接

扫一扫

专栏目录