Word2vec tutorial

最新推荐文章于 2021-09-15 19:44:07 发布

Moriarty_smile

最新推荐文章于 2021-09-15 19:44:07 发布

阅读量240

点赞数

分类专栏： NLP

NLP 专栏收录该内容

2 篇文章 0 订阅

订阅专栏

说明

来自2014年 word2vec explained: deriving Mikolov et al.’s negative-sampling wordembedding method，纯属翻译。另外为了方便表示概率时候都用/代替\。

Skip-gram 模型

1954年，Harris的the distributional hypothesis，文章名：Distributional structure，通俗的讲就是说对于一个词来讲，如果相同的context就应该有相近的意思。更加浅显的个人理解就是，如果对一个词库进行统计，两个词语 $w_1,w_2$ ,同时出现频率最高的词都是 $w_3,w_4,w_5$ ，那他们意义就应该是相近的。

我们假设在已知 $w$ 的情况下，出现c的概率是 $p(c/w)$ ,假定此时的参数集合是 $\theta$ ，因此我们有：

a r g m a x θ \prod w \in T e x t ⎡ ⎣ \prod c \in C (w) p (c / w; θ) ⎤ ⎦

$arg\ \mathop{max}_\theta\ \prod _{w\in Text}\left [ \prod _{c\in C(w)}p(c/w;\theta) \right ]$

C(w) C ( w ) $C(w)$ 是词

w w $w$ 的context，即周边的词语，至于周边词语的多少，是由选定的窗口大小决定的，窗口大周边词语多。更加紧致的写法：

a r g \underset{θ}{m a x} \prod_{(w, c) \in D} p (c / w; θ)

$arg\ \mathop{max}_\theta\ \prod _{(w,c)\in D}p(c/w;\theta)$

D D $D$ 是词典中所有的词，环境词也是从中根据窗口选取出来的。

参数

根据神经网络语言模型，最后一层采用soft-max，其表示为：

p (c / w; θ) = \frac{e^{v_{c} \cdot v_{w}}}{\sum_{c^{^{'}} \in C} e^{v_{c^{^{'}}} v_{w}}}

$p(c/w;\theta) = \frac{e^{v_c\cdot v_w}}{\sum\nolimits_{c^{'}\in C}e^{v_{c^{'}}v_w}}$
最大化每个

w,c w , c $w,c$ 出现的概率，再取一个log,即可得到：

a r g m a x θ \sum (w, c) \in D l o g p (c / w) = \sum (w, c) \in D (l o g e v c \cdot v w - l o g \sum c' e v c' \cdot v w)

$arg\ \mathop{max}_\theta\ \sum _{(w,c)\in D}logp(c/w)=\sum _{(w,c)\in D}(log\ e^{v_c \cdot v_w}-log\ \sum_{c^{'}}e^{v_{c^{'}}\cdot v_w})$
此时我们的参数包括

vc,vw v c , v w $v_c,v_w$ ,参数大小为

c∗w∗d c ∗ w ∗ d $c*w*d$ ，我们可以从上面一个式子第二项可以看到，要计算soft-max就要计算出现一个词

w w $w$ 后出现可能

c

$c$ 的概率，计算量是不容小觑的，特别是它的contexts非常大的时候。因此衍生出了负采样及基于分阶的softmax。

负采样

设定 $p(D=1/w,c)$ 表示词对 $(w,c)$ 在corpus中出现，而 $p(D=0/w,c)=1-p(D=1/w,c)$ 是 $(w,c)$ 未在corpus中出现。其实思想就是，最大化出现过的词对概率，最小化未出现的词对概率。个人理解为，最大化词对出现过的概率以后，其解空间还是特别大，加一个约束即最小化未出现词对概率有缩小解空间的作用。当然在这篇文章中，作者从另外一个角度解释说是为了防止得到一个错误解，即: