《Linguistic Regularities in Continuous Space Word Representations》翻译与理解

最新推荐文章于 2022-02-15 22:56:22 发布

qq_38721353

最新推荐文章于 2022-02-15 22:56:22 发布

阅读量678

点赞数

分类专栏：神经网络

神经网络专栏收录该内容

8 篇文章 0 订阅

订阅专栏

                                        Abstract
    最近连续空间语言模型在很多任务上表现很好。这篇文章研究了由输入层权值隐式学习的向量空间词表示。我们发现这些表示很擅长捕捉语言中的语义和词义表示，每个关系都有一个特定于关系的向量偏移量。例如，男人/女人这种关系被自动学习，产生的向量表示，“King - Man + Woman" 会得到一个和 ”Queen" 非常相近的向量。我们证明词向量通过语法类似问题捕捉语法规律，能够正确回答40%的问题。证明词向量能够通过使用向量偏移方法捕捉语义规律，可以回答 SemEval-2012 Task 2问题。出乎意料的是，这个方法比以前最好的系统还要好。
                                       Introduction
    神经网络语言模型一个明显特征是把词向量表示为高维实值向量。在这些模型中，单词通过一个学习好的查询表转换为实值向量，这些实值向量可以输入神经网络。正如原来的提议人所说，这些模型的一个主要有点是分布式表示实现了某种程度上的泛化，这是传统的n-gram模型不可能实现的。但是n-gram模型是利用相互之间没有内在关系的离散单元工作的。连续空间模型就相似的而言，有相似的词向量，这是连续空间模型的工作机制。因此，当模型根据特定词调整参数时，这种改进将延续到类似词和序列的出现。
    通过训练神经网络语言模型，得到的不仅仅是模型本身，而且还有学习好的单词表示，这些单词表示可能被用于其他可能没有关系的任务。这种单词表示用于NLP任务种改进了很多NLP任务的性能。
    在我们的工作中，我们发现实际上学习到的单词向量表示利用一种很简单的方式得到了有意义的语义和语法规律。具体来说,在存在某种关系的单词对之间有常数向量偏移就是我们观察到的规律。例如,如果我们用 x(i) 表示单词 i 的词向量, 对于单数/复数关系, 我们发现在这里插入图片描述
也许更令人惊讶的是，我们发现这也是多种语义关系的情况，正如Semeval2012测量关系相似性的任务所测量的那样。
                                       Related Work
    分布式词向量有很长的历史。最近，神经网络语言模型被提出用于经典的语言模型任务，即根据前面的词语预测下一个词。这些模型首先是在前馈网络的背景下研究的，后来是在循环神经网络模型的背景下研究的。这项早期的工作显示了在单词预测方面的出色性能，但也需要更高效的计算模型。
                                       RNNM
    我们研究的单词表示是利用RNNLM学习到的，RNNLM如图一所示。
在这里插入图片描述
这种结构包括一个输入层，一个RNN连接的隐藏层，以及一个对应的权重矩阵。输出层的计算方式如下所示:

在这里插入图片描述
其中

w(t): t 时刻的one hot表示的输入向量
y(t): 输出的概率分布
s(t): 句子历史的表示

w(t)、y(t)的维度和词汇的个数相同
     在这个框架中，单词表示可以在权重矩阵U的列中找到，每一列表示一个词（看上面的公式就知道是行还是列）。RNN的代价函数是最大似然函数。模型本身没有语法、类比、语义知识。令人惊讶的是，训练这样一个简单的词汇模型会产生一个具有语法和语义属性的单词表示.
                                       向量偏移方法
    正如我们看到的，语法和语义任务都被表述为类比问题。我们发现一个基于cos距离的简单的单词偏移方法在解决这些问题的时候是非常有效的。在这种方法中，我们假设关系表现为向量偏移，所以在嵌入空间，所有具有某种特定关系的词对都有同样的常数偏移。正如图二所示。
在这里插入图片描述
在我们的方法中，为了回答类比问题 a:b，c:d，这里d是未知的，我们找到a,b,c的嵌入向量x(a),x(b),x©，然后计算y=x(b)-x(a)+x©，y是我们想得到的词的最好的连续空间表示，当然，可能这个词向量没有对应的单词，所以我们利用cos距离求得这个单词。
在这里插入图片描述
当给定d时，就像在我们的语义测试集中一样，我们只使用cos（xb-xa+xc，xd）来表示所提供的单词（这个地方我理解的意思是，利用a,b,c求出一个d的向量，然后根据求得的向量和已经有的向量计算相关性)。我们研究了几个相关的方法，发现我们提出的方法在语义和语法分析都表现很好。我们注意到，这个度量在性质上类似于（Turney，2012）的关系相似性模型，该模型预测词对（xb，xd），（xc，xd）成员之间的相似性和（xa，xd）成员之间的不相似性。

数据集：语法数据集和语义数据集
语法数据集：

adj: 原型/比较级/最高级
n: 单数/复数
普通名词：所有格/非所有格
v: 原型/三单/过去式
在新闻文章上面打标签，选择了100个最常用的adj的比较级，100个复数名词，100个最常见的所有格名词，100个最常见的基态动词。然后，我们通过将100个单词中的每一个与来自同一类别的5个其他单词随机匹配，并创建如表1所示的变体，系统地生成类比问题。测试集的总大小是8000。测试集在线可用

语义测试集：