- Efficient Estimation of Word Representations in Vector Space
- Distributed Representations of Words and Phrases and their Compositionality
首先第一篇文章Efficient Estimation of Word Representations in Vector Space
针对之前提出的NNLM和RNNLM计算复杂的问题,在此基础上减少了隐藏层(将语言模型的建立看成一个多分类问题,相当于线性分类器加上softmax,剪去了中间非线性变换的部分),设计了两个简单的模型(skip-gram 和 cbow 模型)。
由于语言模型的思想就是一个词的出现受该词前面词的影响,所以word2vec的基本思想也是用词来预测词(附近的词),skip-gram使用中心词预测周围词,cbow使用周围词预测中心词。
这里词的预测与语言的表现形式是无关的,也就是说词向量的表示核心是利用上下文信息进行词的表示,即使使用的是两种不同的语言,相同含义的单词在两个向量空间总的相对位置都是差不多的。