Introduction
大多数词向量方法依赖于成对的词向量之间的距离或角度,作为评估此类此表示的内在质量的主要方法。有人提出了一种新的、基于单词类比的评估方案,该方案通过检查单词向量之间的标量距离,而不是不同的维度差异,来探索单词向量空间的精细结构。举例:"the analogy king is to queen as man is to woman" should be encoded in the vector space by the vector equation king -queen = man - woman. 这种评估方案倾向于产生意义维度的模型,从而抓住分布式表示的多聚类思想(后半句不太懂)
Related Work
学习词向量的两个主要模型族是:(1)全局矩阵分解方法,如潜在语义分析(LSA) 和(2)局部上下文窗口方法,如skip-gram模型。目前,这两种模型有缺陷。虽然像LSA这样的方法可以有效地利用统计信息,但它们在单词类比任务上做得相对较差,这表明向量空间结构不是最优的。像skip-grams这样的方法可能在类比任务上做得更好,但它们没有很好地利用语料库的统计数据,因为它们训练的是单独的局部上下文窗口,而不是全局共出现计数。
矩阵分解法