1、Abstract
用于关系分类的最新方法主要基于统计机器学习,其性能在很大程度上取决于提取特征的质量。提取的特征通常来自预先存在的自然语言处理 (NLP) 系统的输出,这会导致现有工具中的错误传播并阻碍这些系统的性能。
在本文中,我们利用卷积深度神经网络 (DNN) 来提取词汇和句子级别的特征。 我们的方法将所有单词标记(word tokens)作为输入,无需复杂的预处理。 首先,通过查找词嵌入将词标记转换为向量。 然后,根据给定的名词提取词汇级别的特征。 同时,使用卷积方法学习句子级特征。 将这两个级别的特征连接起来形成最终提取的特征向量。 最后,将特征输入到 softmax 分类器中以预测两个标记名词之间的关系。 实验结果表明,我们的方法明显优于最先进的方法。
个人思考:
1、这是一篇2014年的文章。在此之前,特征提取大多都是通过统计机器学习算法来完成的。统计机器学习的算法被封装成NLP的特征提取工具,比方说最早的独热编码、td-idf将词转换成词向量。然后还有2013年google提出的word2vec方法,开始使用浅层的神经网络训练,来提取特征。文本特征提取转换为向量的过程可以看作是词嵌入(词的分布式表示,主要指用DNN提取特征)的过程,应该也可以看作是Encoder-Decoder框架算法的实现。而NLP系统就是封装好的NLP特征提取工具。
2、为什么是预测两个标记的名词呢?能否是多个,或者是不同词性的词。
2、Introduction
关系分类的任务是预测名词对之间的语义关系,可以定义如下:给定一个句子 S,带有标注的名词对 e1 和 e2,我们的目标是识别 e1 和 e2 之间的关系。
关系分类最具代表性的方法是使用监督范式; 此类方法已被证明是有效的并且产生了相对较高的性能。监督方法进一步分为基于特征的方法和基于内核的方法。 基于特征的方法使用在执行文本分析后选择的一组特征。 他们将这些特征转换为符号 ID,然后使用类似于词袋模型的范式将其转换为向量。 相反,基于内核的方法需要以解析树(例如依赖解析树)的形式预处理输入数据。 这些方法之所以有效,是因为它们利用了大量的语言知识。
然而,提取的特征或精心设计的内核通常来自预先存在的 NLP 系统的输出,这会导致现有工具中的错误传播并阻碍此类系统的性能。正因如此,我们考虑提取尽可能独立于现有 NLP 工具的特征是很有吸引力的。
为了识别名词对之间的关系,需要巧妙地结合句子中来自不同句法和语义结构的词汇和句子级别的线索。 例如,在句子“The [fire]e1 inside WTC was made by exploding [fuel]e2 ”中,确定火和燃料是因果关系,我们通常会利用标记的名词和整个句子的含义。
在本文中,我们利用卷积 DNN 来提取用于关系分类的词汇和句子级特征。 我们的方法将所有单词标记作为输入,无需复杂的预处理,例如词性 (POS) 标记和句法解析。 首先,通过查找词嵌入将所有词标记转换为向量。 然后,根据给定的名词提取词汇级别的特征。 同时,使用卷积方法学习句子级特征。 将这两个级别的特征连接起来形成最终提取的特征向量。 最后,将特征输入到 softmax 分类器中以预测两个标记名词之间的关系。
3、方法实现
3.1 神经网络架构
上图描述了我们用于关系分类的神经网络的架构。 网络接受一个输入句子并发现多个级别的特征提取,其中更高的级别代表输入的更抽象方面。 它主要包括以下三个部分:词表示、特征提取和输出。
3.2 词表示(Word Representation)
在词表示组件中,通过查找词嵌入将每个输入词标记转换为向量。 我们的实验直接利用了 Turian 等人(2010)提供的训练嵌入。
3.3 词汇级别的特征(Lexical Level Features)
词汇层次特征是决定关系的重要线索。 传统的词汇层面特征主要包括名词本身、实体周围的名词对和词序列的类型,其质量在很大程度上取决于现有NLP工具的结果。 作为一种选择,本文使用通用词嵌入作为基本特征的来源。 我们选择标记名词和上下文标记的词嵌入。 此外,WordNet 上位词 (WordNet是面向语义的英语词典)被 MVRNN (Socher et al., 2012) (Matrix-Vector Recursive Neural Networks)采纳。 所有这些特征都连接到我们的词汇级别特征向量 I 中。
表 1 显示了与句子中标记名词相关的选定词嵌入。
3.4 句子级别的特征(Sentence Level Features)
如第 3.2 节所述,所有标记都表示为词向量,这已被证明与人类对词相似度的判断有很好的相关性。 尽管取得了成功,但单个词向量模型仍受到严重限制,因为它们无法捕获长距离特征和语义组合性,这是自然语言的重要品质,可让人类理解较长表达的含义。 在本节中,我们提出了一个最大池化卷积神经网络来提供句子级表示并自动提取句子级特征。 图 2 展示了句子级特征提取的框架。 在窗口处理(Window Processing)组件中,每个标记进一步表示为字特征 (WF) 和位置特征 (PF)(参见第 3.4.1 和 3.4.2 节)。 然后,向量经过一个卷积组件。 最后,我们通过非线性变换获得句子级特征。
3.4.1 词特征(WF)
分布假设理论 (Harris, 1954) 表明出现在相同上下文中的词往往具有相似的含义。 为了捕捉这个特征,WF 结合了一个词的向量表示和词在其上下文中的向量表示。
假设我们有以下单词序列:
S : [People]0 have1 been2 move3 back4 into5 [downtown]6
标记名词与定义标记对包含的关系类型的标签 y 相关联。每个词还与词嵌入的索引相关联。 然后将句子 S 的所有单词标记表示为向量列表 ( x0 , x1, · · ·, x6),其中 xi 对应于句子中第 i 个单词的词嵌入。 为了使用 w 的上下文大小,我们将大小 w 的向量窗口组合成更丰富的特征。
例如,当我们取 w = 3 时,句子 S 中第三个单词“moving”的 WF 表示为 [x2, x3, x4]。 类似地,考虑整个句子,WF 可以表示如下:{[xs , x0 , x1 ], [x0 , x1 , x2 ], · · · , [x5, x6, xe]}5
3.4.2 位置特征(PF)
关系分类是一项非常复杂的任务。 传统上,结构特征(例如,名义值之间的最短依赖路径)用于解决这个问题(Bunescu 和 Mooney,2005)。 显然,仅通过 WF 无法捕获这样的结构信息。 有必要指定哪些输入标记是句子中的目标名词。 为此,提出了 PF 用于关系分类。
在本文中,PF是当前词到w1和w2的相对距离的组合。 例如,句子S中的“moving”与“people”和“downtown”的相对距离分别为3和-3。 在我们的方法中,相对距离也被映射到一个维度为 de(超参数)的向量; 这个向量是随机初始化的。 然后,我们得到当前词到w1和w2的相对距离的距离向量d1和d2,PF=[d1,d2]。 结合 WF 和 PF,单词表示为 [WF, PF]T ,随后将其输入到算法的卷积组件中。
3.4.3 卷积
我们将看到单词表示方法可以通过窗口中向量的组合来捕获上下文信息。 然而,它只在句子的每个单词周围产生局部特征。
在关系分类中,用目标名词标记的输入句子只对应一个关系类型,而不是为每个词预测标签。 因此,可能有必要利用所有局部特征并全局预测关系。 使用神经网络时,卷积方法是合并所有特征的自然方法。
类似于 Collobert 等人 (2011),我们首先使用线性变换处理窗口处理的输出。Z =W1X 是窗口处理任务的输出,其中 n0 = w × n,n(一个超参数)是特征向量的维度,t 是输入句子的标记数。 W1 (维度为n1 × n0)是线性变换矩阵,其中 n1(超参数)是隐藏层 1 的大小。 我们可以看到,这些特征在所有时间都共享相同的权重,这大大减少了要学习的自由参数的数量。 应用线性变换后,输出 Z (维度为n1 × t)取决于 t。 为了确定特征向量的每个维度中最有用的特征,我们在 Z 上随时间执行最大化操作。mi = max Z(i, ·) ,0
≤
\leq
≤ i
≤
\leq
≤n1 。其中 Z(i, ·) 表示矩阵 Z 的第 i 行。最后,我们得到特征向量 m = {m1,m2, · · · ,mn1},其维度不再与句子长度相关。
3.4.4 句子级别的特征向量
为了学习更复杂的特征,我们设计了一个非线性层并选择双曲正切作为激活函数。 tanh 的一个有用特性是它的导数可以用函数值本身来表示:
d
d
x
t
a
n
h
x
=
1
−
t
a
n
h
2
x
\frac{d}{dx}tanh x = 1 − tanh^2x
dxdtanhx=1−tanh2x它的优点是可以很容易地在反向传播训练过程中计算梯度。
形式上,非线性变换可以写成
g
=
t
a
n
h
(
W
2
m
)
g = tanh(W_2m)
g=tanh(W2m),
W
2
W_2
W2的维度
n
2
×
n
1
n_2×n_1
n2×n1 是线性变换矩阵,其中
n
2
n_2
n2(超参数)是隐藏层 2 的大小。与 m 维度为n1 × 1 相比, g 维度为 n2×1 可以被认为是更高级别的特征(句子级别的特征)。
3.5 输出
上面提到的自动学习的词汇和句子级别的特征被连接成一个向量 f = [ l , g ] f = [l, g] f=[l,g]。 为了计算每个关系的置信度,特征向量 f 维度为n3×1(n3 等于 n2加上词汇级别特征的维度)被输入到 softmax 分类器中。o =W3f ,W3维度为 n4×n3 是变换矩阵,o维度为n4×1 是网络的最终输出,其中n4 等于关系分类系统可能的关系类型的数量。 然后可以将每个输出解释为对应关系的置信度分数。 通过应用 softmax 操作,可以将此分数解释为条件概率(参见第 3.6 节)。
3.6 反向传播训练
更多详见论文~
个人笔记且为第一次论文总结,一点点记录,但难免有疏漏,还请海涵。
论文链接为:传送门