https://papers.nips.cc/paper/5021-distributed-representations-of-words-and-phrases-and-their-compositionality.pdf“>翻译论文
最近提出的连续Skip-gram模型是一个有效的方法,用来学习高质量的分布式向量表示,它能够捕获大量的准确的单词间语义和句法关系。在这篇文章中,我们呈现一些扩展,它既能提高向量的质量,而且能提高训练速度;通过频繁词抽样,我们获得重要的加速和学习得到更有规律的词向量表示。我们称the hierarchical softmax样本选择过程为负采样;
词向量表示的一个内在的限制是无视单词间的顺序,而且没有能力去表示习语。例如,Candace和Air的意义不能够简单的结合来获得“Air Canada”;受这个例子的启发,我们呈现的一个方法用来发现文本中的短语,发现学习成千上万的短语的好的向量表示是可能的;
介绍
在一个向量空间对单词进行分布式向量表示,能够通过分组相似单词,在自然语言处理任务中能够帮助学习算法获得更好的表现;最早的使用词向量追溯至1986.这个想法在统计语言模型被应用,并取得很大的成功;接下来的工作包括自动语音识别和机器翻译,和其他更多的NLP应用;
最近,Mikolov et al介绍了skip- gram模型,一个高效的从大量的非结构化文本数据中学习高质量的单词向量表示的方法;不同于之前的学习词向量的神经网络框架,训练Skip-gram模型不涉及复杂的矩阵乘法;这使得训练很有效,一个优化的单机实现能够一天训练超过100billion个单词;
使用神经网络计算单词表示是很令人感兴趣的,因为学习得到的向量明确的包括了许多语言规则和
Distributed Representations of Words and Phrasesand their Compositionality
最新推荐文章于 2022-07-11 08:57:53 发布