Distributed Representations of Words and Phrases and their Compositionality

Distributed Representations of Words and Phrases and their Compositionality

Tomas Mikolov, Ilya Sutskever, Kai Chen, Greg Corrado, Jeffrey Dean

1.Abstract
在这篇文章中,我们提出了对原来Skip-gram模型的一些扩展。我们展示了在训练结果过程中对常见词的二次抽样能显著提高速度(大约2x-10x),而且提高了对不常见词的表示的准确性。此外,与之前工作中更复杂的分层softmax相比,我们提出了一个噪声对比评估(Noise Contrastive Estimation,NCE)的简单变体,以训练这个Skip-gram模型以提升训练速度以及对常见词的更好地向量表示。
词表示的限制在于,它们无法用个体词的向量来表示惯用短语的向量。例如,“波士顿环球报”是一份报纸,因此它不是“波士顿”和“环球报”的自然组合。因此,用向量去表示整个短语使Sip-gram模型更具有表现力。其他试图通过组合词向量来表示句子意义的技术例如,循环自编码器,也将会从短语向量替代词向量中获益。
从基于词的模型向基于短语的模型扩展是相对简单的。首先,我们用数据驱动的方法识别了大量的短语,然后在训练过程中我们将这些短语作为个体标识。为了评估短语向量的质量,我们开发了一种包括词语与短语的类比推理任务的测试集。一个典型的类比是:“Montreal”:“Montreal Canadiens”::“Toronto”:“Toronto Maple Leafs”。(“蒙特利尔”:“蒙特利尔加拿大人”::“多伦多”:“多伦多枫叶”)如果与vec(“蒙特利尔加拿大人”)- vec(“蒙特利尔”)+ vec(“多伦多”)最近的代表是vec(“多伦多枫叶”),则认为答案是正确的。
最后,我们描述了Skip-gram模型的另外一个有趣的属性。我们发现简单的向量相加经常可以产生有意义的结果。例如,vec(“Russia”) + vec(“river”) is close to vec(“Volga River”), and vec(“Germany”) + vec(“capital”) is close to vec(“Berlin”)。这种组合性表示通过对单词向量表示的基本数学运算,可以获得不明显的语言理解程度。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值