[论文笔记] [2013] [NIPS] Distributed Representations of Words and Phrases and their Compositionality

最新推荐文章于 2022-02-28 15:04:39 发布

Alexzhuan

最新推荐文章于 2022-02-28 15:04:39 发布

阅读量511

点赞数

分类专栏： NLP 文章标签：自然语言处理神经网络机器学习

本文链接：https://blog.csdn.net/qq_37524214/article/details/107041860

版权

这篇论文介绍了Mikolov提出的Skip-gram模型及其优化技巧，包括Hierarchical Softmax和Negative Sampling，用于加速训练和提升词向量质量。此外，还探讨了Subsampling频繁词的方法，以减少不必要信息并优化模型效果。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

这篇论文的作者 Mikolov 基于他前面的工作——skip-gram model学习 word embedding，提出了几个提高词向量性能和训练速度的技巧，以及如何学习短语的表示。

这篇论文的主要贡献为：

利用 subsampling 加速训练和提高词向量的质量；
对 Noise Contrastive Estimation（NCE）做了一些简化，提出了 Negative sampling 来优化模型训练速度；
尝试学习短语的表示。

The Skip-gram Model

Mikolov 之前的工作 skip-gram [1] 简单看来，就是给定一个中心词去预测周围词，训练的过程就是学习词向量的过程。模型的目标函数是：
$\frac{1}{T} \sum_{t=1}^T{\sum_{-c \leq j \leq c, j \neq 0}{\log{p(w_{t+j}|w_t)}}}$
其中 $c$ 为上下文词的范围。c 越大，需要的训练样本更大，训练的时间更久，但模型的效果会更好。 $p(w_{t+j}|w_t)$ 的计算则是通过 softmax函数做概率的归一化：
$p(w_O|w_I) = \frac{\exp(v_{w_O}'^Tv_{w_{I}})}{\sum_{w=1}^W\exp(v_w'^Tv_{w_I})}$
其中， $v_w$ 和 $v_w'$ 分别为单词 $w$ 的中心词词向量和周围词词向量（论文中称 “input” and “output” vector representations）， $W$ 为词表的大小。采用 softmax 函数，在 inference的时候需要计算词表中每个词的概率，在一些W非常大的任务下，无疑计算量是很大的。另外，将上式预测一个词 $w_O$ 的概率，代入到 cross-entropy loss中，可得（这里只是简化下，只计算一个词的loss）
$J_{\theta} = - \log{ \frac{\exp(v_{w_O}'^Tv_{w_{I}})}{\sum_{w=1}^W\exp(v_w'^Tv_{w_I})}}$
通过化简，可以得到：
$J_{\theta} = -v_{w_O}'^Tv_{w_I} + \log{\sum_{w=1}^W\exp(v_w'^Tv_{w_I})}$

最低0.47元/天解锁文章