Distributed Representations of Words and Phrases and their Compositionality

最新推荐文章于 2024-07-12 13:22:14 发布

cythine

最新推荐文章于 2024-07-12 13:22:14 发布

阅读量395

点赞数

分类专栏： NLP 深度学习文章标签： NLP Word2Vector

NLP 同时被 2 个专栏收录

6 篇文章 0 订阅

订阅专栏

深度学习

5 篇文章 0 订阅

订阅专栏

Distributed Representations of Words and Phrases and their Compositionality

Tomas Mikolov, Ilya Sutskever, Kai Chen, Greg Corrado, Jeffrey Dean

1.Abstract
在这篇文章中，我们提出了对原来Skip-gram模型的一些扩展。我们展示了在训练结果过程中对常见词的二次抽样能显著提高速度（大约2x-10x），而且提高了对不常见词的表示的准确性。此外，与之前工作中更复杂的分层softmax相比，我们提出了一个噪声对比评估（Noise Contrastive Estimation,NCE）的简单变体，以训练这个Skip-gram模型以提升训练速度以及对常见词的更好地向量表示。
词表示的限制在于，它们无法用个体词的向量来表示惯用短语的向量。例如，“波士顿环球报”是一份报纸，因此它不是“波士顿”和“环球报”的自然组合。因此，用向量去表示整个短语使Sip-gram模型更具有表现力。其他试图通过组合词向量来表示句子意义的技术例如，循环自编码器，也将会从短语向量替代词向量中获益。
从基于词的模型向基于短语的模型扩展是相对简单的。首先，我们用数据驱动的方法识别了大量的短语，然后在训练过程中我们将这些短语作为个体标识。为了评估短语向量的质量，我们开发了一种包括词语与短语的类比推理任务的测试集。一个典型的类比是：“Montreal”:“Montreal Canadiens”::“Toronto”:“Toronto Maple Leafs”。（“蒙特利尔”:“蒙特利尔加拿大人”::“多伦多”:“多伦多枫叶”）如果与vec(“蒙特利尔加拿大人”)- vec(“蒙特利尔”)+ vec(“多伦多”)最近的代表是vec(“多伦多枫叶”)，则认为答案是正确的。
最后，我们描述了Skip-gram模型的另外一个有趣的属性。我们发现简单的向量相加经常可以产生有意义的结果。例如，vec(“Russia”) + vec(“river”) is close to vec(“Volga River”), and vec(“Germany”) + vec(“capital”) is close to vec(“Berlin”)。这种组合性表示通过对单词向量表示的基本数学运算，可以获得不明显的语言理解程度。