Word2Vec

最新推荐文章于 2024-05-30 15:58:15 发布

walkeao

最新推荐文章于 2024-05-30 15:58:15 发布

阅读量603

点赞数

分类专栏：论文阅读自然语言处理小组块文章标签： word2vec NLP 负采样层级softmax

本文链接：https://blog.csdn.net/Walker_Hao/article/details/78958039

版权

小组块同时被 3 个专栏收录

7 篇文章 0 订阅

订阅专栏

论文阅读

4 篇文章 0 订阅

订阅专栏

自然语言处理

4 篇文章 0 订阅

订阅专栏

Word2Vec

Word2Vec

前言

本文是对论文Distributed Representations of Words and Phrases and their Compositionality的介绍，其中涉及到的技巧和方法既适用于skip-gram模型也适用于cbow模型。

Skip-gram模型

模型介绍

给定词序列 $w_1,w_2,...,w_{i-c},...,w_{i-1},w_i,w_{i+1}...,w_{i+c},...,w_T$ ：skip-gram模型的目标是得到 $w_i$ 的词向量表示 $v_{w_i}, i=1,2,...,T$ ，而该词向量 $v_{w_i}$ 可以用于对周围的词 $w_{i-c},...,w_{i-1},w_{i+1}...,w_{i+c}$ 进行预测。

skip-gram模型的目标是最大化平均对数似然概率：

1 T \sum t = 1 T \sum - c ⩽ j ⩽ c, j \neq 0 l o g p (w t + c | w t) (1)

$\frac{1}{T}\sum_{t=1}^{T}\sum_{-c\leqslant j\leqslant c,j\neq 0}log\ p(w_{t+c}|w_t)\qquad (1)$

c $c$ 是用于训练的上下文的大小。
skip-gram的基本模型使用softmax函数对 $p(w_{t+c}|w_t)$ 定义： $p (w O | w I) = e x p ( v ' w O T v w I ) \sum W w = 1 e x p ( v ' w T v w I ) (2)$ $p(w_O|w_I)=\frac{exp({{v^{'}}_{w_O}}^T v_{w_I})}{\sum_{w=1}^W exp({{v^{'}}_w}^T v_{w_I})} \qquad (2)$ 其中， $W$ 表示词典中词的数量， $v^{'}_w$ 表示词的”输出向量”， $v_w$ 表示词的”输入向量”。
由于 $\bigtriangledown log\ p(w_O|w_I)$ 的 计算开销与 $W$ 成比例，而 $W$ 常常很大( $10^5-10^7$ )，所以(2)式不可行。

层级softmax

对(2)式计算的一个替代方法是使用层级softmax，该方法的优点是我们不需要像(2)式一样对 $W$ 个节点值进行估计来得到概率值，而只需要对 $logW$ 个节点的值进行估计。
在层级softmax函数中，我们使用一棵二叉树来对输出层进行表示， $W$ 个词作为叶子节点，而每个内部节点表示从该节点到两个孩子节点的概率。所以，最终通过随机游走来得到每一个词出现的概率。
我们可以从根节点出发，选择一条合适的路径到达每一个叶子节点。假设 $n(w,j)$ 表示从根节点 $root$ 到达叶子节点 $w$ 的路径上的第 $j$ 个节点， $L(w)$ 表示该路径的长度，则 $n(w,1)=root, \ n(w,L(w))=w$ 。对于任意内部节点 $n$ ， $ch(n)$ 表示该节点的任意确定的孩子节点， $1\{x\}$ 为1如果 $x$ 为真，否则为-1。
层级softmax定义 $p(w_O|w_I)$ 为：

p (w | w I) = \prod j = 1 L (w) - 1 σ (1 {n (w, j + 1) = c h (n (w, j))} \cdot v' n (w, j) T v w I) (3)

$p(w|w_I)=\prod_{j=1}^{L(w)-1}\sigma(1\{n(w,j+1)=ch(n(w,j))\} \cdot {v^{'}_{n(w,j)}}^Tv_{w_I})\quad (3)$ 其中， $\sigma(x)=1/(1+exp(-x))$ 。
可以证明 $\sum_{w=1}^{W}p(w|w_I)=1$ 。这表明， $\bigtriangledown log\ p(w_O|w_I)$ 的计算开销与 $logL(w_O)$ 成正比，平均不大于 $logW$ 。在skip-gram模型中，每一个词有两个向量表示 $v_w$ 和 $v^{'}_w$ ，而在层级softmax中，每个词只有一个表示 $v_w$ ，而对树中的每一个内部节点 $n$ 有一个向量表示 $v^{'}_n$ 。

负采样

除了层级softmax方法外，还可以使用NCE方法，该方法指出，一个好的模型应该可以区分数据和噪声。
对NCE进行简化，定义负采样：
$l o g p (w O | w I) = l o g σ (v' w O T v w I) + \sum i = 1 k E w i \sim P n (w) [l o g σ (- v' w i T v w I)]$ $log\ p(w_O|w_I)=log\sigma({v^{'}_{w_O}}^T v_{w_I})+\sum_{i=1}^{k}\mathbb{E}_{w_i \sim P_n(w)}[log\sigma(-{v^{'}_{w_i}}^T v_{w_I})]$ 其中k表示从噪声分布 $P_n(w)$ 中选择k个负样本。注意：我们使用的是 $\sigma$ 函数(我们不需要知道每个词出现概率的具体数值，只是对表达式最大化)。实验表明，当数据集较小时，k可以取值5-20，当数据集较大时，k可以取值2-5。

subsample

由于一些常用词提供的信息量很少，比如the，a等，所以训练时，每一个训练集中的词 $w_i$ 以 $P(w_i)$ 的概率被忽略：
$P (w i) = 1 - t f ( w i ) - - - - - \sqrt$ $P(w_i)=1-\sqrt{\frac{t}{f(w_i)}}$ 其中， $f(w_i)$ 表示词 $w_i$ 出现的频率大小， $t$ 为频率的阈值，典型的取值为 $10^{-5}$ ， $f(w_i)$ 值越大，该词被忽略的概率越大。

参考文献

Distributed Representations of Words and Phrases and their Compositionality

walkeao

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Word2Vec

Word2Vec-01Word2Vec-01Skip-gram模型模型介绍层级softmax负采样subsample参考文献Skip-gram模型模型介绍给定词序列w1,w2,...,wi−c,...,wi−1,wi,wi+1...,wi+c,...,wTw_1,w_2,...,w_{i-c},...,w_{i-1},w_i,w_{i+1}...,w_{i+c},...,w_T：sk
复制链接

扫一扫