(论文阅读) Efficient Estimation of Word Representations in Vector
源自谷歌对Word2Vec的贡献。
主要内容:
提出新的模型来计算较大数据集的词的向量表示。期望不仅相似的单词趋于彼此接近,而且单词可以有多个相似度。
优点:
- 重点研究神经网络学习的单词的分布式表示。研究表明,神经网络在保持单词之间的线性规律方面明显优于潜在语义分析(LSA) ,潜在狄利克雷分配(LDA)在大型数据集上的计算成本非常高。
- Continuous Bag-of-Words Model(CBOW),所有的单词被投影到相同的位置(它们的向量被平均)。使用来自过去和未来的词汇,通过在输入处构建一个日志线性分类器,其中包含4个future和4个history单词,训练标准是正确地分类当前(中间)单词,我们获得了下一节介绍的任务的最佳性。因为与标准的词袋模型不同,它使用了上下文的连续分布表示。
- Continuous Skip-gram Model ,不是基于上下文预测当前的单词,而是试图根据同一句子中的另一个单词最大限度地分类一个单词。更准确地说,我们将每个当前单词作为连续投影层的对数线性分类器的输入,预测当前单词前后一定范围内的单词。增加范围提高了结果字向量的质量,但也增加了计算复杂度。由于距离较远的单词通常比距离较近的单词与当前单词的关联度更低,因此我们在训练示例中对距离较远的单词采样较少,从而对这些单词赋予更小的权重。
- 提出通过余弦相似度和词类类比的方式衡量两个单词或多个单词之间的关系和相似程度。
图1: CBOW体系结构根据上下文预测当前的单词,而Skip-gram则根据当前单词预测周围的单词。
在向量空间中搜索用余弦距离测量的最接近的单词,并将其作为问题的答案(在搜索过程中,丢弃了输入的问题单词)。当单词向量训练得很好时,就可以用这个方法找到正确的答案(单词最小)。
结果:
CBOW体系结构在语法任务上比NNLM工作得更好,在语义任务上也差不多。最后,Skip-gram体系结构在语法任务上的工作比CBOW模型略差(但仍然比NNLM好),在测试的语义部分比所有其他模型好得多。