《word2vec中的数学》内容摘要（四、基于Negative Sampling的CBOW模型）

最新推荐文章于 2021-12-08 17:07:36 发布

shanghai_in_summer

最新推荐文章于 2021-12-08 17:07:36 发布

阅读量235

点赞数

分类专栏：数据挖掘文章标签：算法

本文链接：https://blog.csdn.net/sunjianqiang12345/article/details/105837442

版权

数据挖掘专栏收录该内容

11 篇文章 0 订阅

订阅专栏

Negative Sampling（NEG）利用随机负采样，能大幅度提高性能。

符号定义

对于样本 (Context(w), w) ，词为正样本，其他词为负样本。假定已经选好了一个关于的负样本子集 $NEG(w) \neq \varnothing$ ，且对 $\forall \widetilde{w} \in D$ ，定义

$L^w(\widetilde{w})=\left\{\begin{matrix} 1, \widetilde{w}=w\\ 0,\widetilde{w} \neq w \end{matrix}\right.$

表示词 $\widetilde{w}$ 的标签，即正样本的标签为1，负样本的标签为0.

我们希望最大化

$g(w)=\prod_{w \in {w} \cup NEG(w)}p(u|Context(w))$

其中

$p(u|Context(w))=[\sigma(\mathbf{x}^T_w\mathbf{\theta}^u)]^{L^w(u)}\cdot [1-\sigma(\mathbf{x}^T_w\mathbf{\theta}^u)]^{1-L^w(u)}$

所以

$g(w)=\sigma(\mathbf{x}^T_w\mathbf{\theta}^w)\prod_{w \in NEG(w)}[1-\sigma(\mathbf{x}^T_w\mathbf{\theta}^u)]$

其中 $\mathbf{x}_w$ 表示 Context(w) 中各词的词向量之和，而 $\mathbf{\theta}^u \in \mathbb{R}^m$ 表示词对应的一个辅助向量，为待训练参数。

目标函数

$L = \ln{G}=\ln{\prod_{w \in C}{g(w)}}=\sum_{w \in C} \ln{g(w)} \\ = \sum_{w \in C} \ln{\prod_{u \in \{w\} \cup NEG(w)}\{[\sigma(\mathbf{x}^T_w \mathbf{\theta}^u )]^{L^w(u)}\cdot [1-\sigma(\mathbf{x}^T_w \mathbf{\theta}^u )]^{1-L^w(u)}]\}}\\=\sum_{w \in C} \sum_{u \in \{w\} \cup NEG(w)}\{L^w(u)\cdot \ln[\sigma(\mathbf{x}^T_w\mathbf{\theta}^u )] + (1-L^w(u))\cdot \ln[1-\sigma(\mathbf{x}^T_w\mathbf{\theta}^u )]\}$

梯度计算及参数更新

设 $L(w, u)=L^w(u)\cdot \ln[\sigma(\mathbf{x}^T_w\mathbf{\theta}^u )] + (1-L^w(u))\cdot \ln[1-\sigma(\mathbf{x}^T_w\mathbf{\theta}^u )]$ ，则

于是 $\mathbf{\theta}^u$ 的更新公式可写为

$\mathbf{\theta}^u:=\mathbf{\theta}^u+\eta [L^w(u)-\sigma{(\mathbf{x}^T_w\mathbf{\theta}^u)}]\mathbf{x}_w$

L(w, u) 中由 $\mathbf{x}_w$ 和 $\mathbf{\theta}^u$ 的对称性有

$\frac{\partial{L(w,u)}}{\partial{\mathbf{x}_w}}=[L^w(u)-\sigma(\mathbf{x}^T_w\mathbf{\theta}^u)]\mathbf{\theta}^u$

$\mathbf{v}(\widetilde{w})$ 的更新公式为

$\mathbf{v}(\widetilde{w}):=\mathbf{v}(\widetilde{w})+\eta \sum_{u\in \{w\}\cup NEG(w)}\frac{\partial{L(w, u)}}{\partial\mathbf{x}_w}, \widetilde{w} \in Context(w)$

基于Negative Sampling的CBOW的伪代码

shanghai_in_summer

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
《word2vec中的数学》内容摘要（四、基于Negative Sampling的CBOW模型）

Negative Sampling（NEG）利用随机负采样，能大幅度提高性能。对于样本，词为正样本，其他词为负样本。假定已经选好了一个关于的负样本子集，且对...
复制链接

扫一扫