为什么使用负采样技术(附详细求导过程)

最新推荐文章于 2022-10-26 21:18:31 发布

amcomputer

最新推荐文章于 2022-10-26 21:18:31 发布

阅读量1.4k

点赞数

分类专栏：有趣的机器学习文章标签：负采样技术

本文链接：https://blog.csdn.net/qq_39463175/article/details/111725352

版权

有趣的机器学习专栏收录该内容

33 篇文章 5 订阅

订阅专栏

word2vec的初心是什么，为什么使用负采样技术。后面看论文过程经常遇到负采样，如mepath2vec等等，对这个知识点不了解清楚，论文很多精华部分理解就会有偏差了。

看了很多博客和B站视频讲解，还是没有讲解清楚。

最后还是知乎大佬说清楚了。详见

1 用负采样带来的问题

参数更新慢

其一我们每次只对窗口中出现的几个单词参数进行更新，但是在计算梯度的过程中，是对整个参数矩阵进行运算，这样参数矩阵中的大部分值都是0。

计算开销大

其二是导致计算效率低下
softmax函数激活，会导致计算全部的单词‘得分’（滑动窗口在滑动过程中，需要计算滑动窗口里面单词然后求和，效率低）

2. 使用负采样

负采样的核心思想是：

计算中心词和窗口中上下文词的真实“得分”，再加一些“噪声”，即词表中的随机词（滑动窗口以外）和中心词的“得分”。

目标方程：

（最大化真实单词对“得分”+ “噪声”作为目标方程。）
采用上述公式解决了之前说的两个问题：

仅对K个参数进行采样
放弃softmax函数，采用sigmoid函数，这样就不存在先求一遍窗口中所有单词的‘“得分”的情况

3. 计算梯度

把最大化问题变为最小化问题：

$\mathbf{J_{t }(\theta )= -log\delta (u_o^{T}u_c) - \sum_{i=1}^{k}\mathbb{E}_{jP(w)}[log\delta (-u_j^{T}u_c]}$

里面涉及到的变量是 u_0 , u_j 和 u_c .分别进行求偏导即可。然后进行更新

对求偏导

其他参数为不管，看为常量。

其中里面的sigmoid函数(除log外)求导后为： $\frac{\partial \delta (u_o^{T}u_c)} {\partial u_c} =\delta (u_o^{T}u_c)\cdot (1-\delta (u_o^{T}u_c))u_o$

$\frac{\partial J(\theta ) }{\partial u_c} =\frac{\partial -log\delta (u_o^{T}u_c) }{\partial u_c} - \frac{\partial \sum_{i=1}^{k}\mathbb{E}_{jP(w)}[log\delta (-u_j^{T}u_c)]} {\partial u_c}$

$= -\frac{1}{\delta (u_o^{T}u_c)}[\delta (u_o^{T}u_c)\cdot (1-\delta (u_o^{T}u_c))u_o] - \sum_{i=1}^{k}\frac{1}{\delta (-u_i^{T}u_c)}[\delta (-u_i^{T}u_c)\cdot (1-\delta (-u_i^{T}u_c))\cdot (-u_i)]$

注意这里的log看着以e为底，T这个求和与 u_c 无关，k这个求和与 u_c 有关.

化简得：

$\frac{\partial J(\theta ) }{\partial u_c} = (\delta (u_o^{T}u_c)-1)u_o - \sum_{i=1}^{k} (\delta (-u_i^{T}u_c)-1)u_i$ ,前面知乎大佬没有进行最大化变最小化，直接就给出了答案，是错的。应该先最小化，在求导，结果才对。

对求偏导

其他参数为不管，看为常量。

按照 u_c 求导思路：

$\frac{\partial J(\theta ) }{\partial u_o} =\frac{\partial -log\delta (u_o^{T}u_c) }{\partial u_o} = -\frac{1}{\delta (u_o^{T}u_c)}[\delta (u_o^{T}u_c)\cdot (1-\delta (u_o^{T}u_c))u_0]$

化简得：

$\frac{\partial J(\theta ) }{\partial u_o} = (\delta (u_o^{T}u_c)-1)u_o$

对求偏导

$\frac{\partial J(\theta ) }{\partial u_i} =0 - \frac{\partial \sum_{i=1}^{k}\mathbb{E}_{jP(w)}[log\delta (-u_i^{T}u_c]} {\partial u_i}$

$= 0- \sum_{i=1}^{k}\frac{1}{\delta (-u_i^{T}u_c)}[\delta (-u_i^{T}u_c)\cdot (1-\delta (-u_i^{T}u_c))-u_c]$

化简得：

$\frac{\partial J(\theta ) }{\partial u_i} = - \sum_{i=1}^{k} (\delta (-u_i^{T}u_c)-1)u_c$

amcomputer

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
1
评论
为什么使用负采样技术(附详细求导过程)

word2vec的初心是什么，为什么使用负采样技术。看了很多博客和B站视频讲解，还是没有讲解清楚。最后还是知乎大佬说清楚了。详见1.用负采样带来的问题参数更新慢其一我们每次只对窗口中出现的几个单词参数进行更新，但是在计算梯度的过程中，是对整个参数矩阵进行运算，这样参数矩阵中的大部分值都是0。计算开销大其二是导致计算效率低下softmax函数激活，会导致计算全部的单词‘得分’（滑动窗口在滑动过程中，需要计算滑动窗口里面单词然后求和，效率低）2..
复制链接

扫一扫