一、Background
关系分类的任务是预测名词对之间的语义关系,可以定义如下:给定一个句子S和名词对
e
1
e_1
e1和
e
2
e_2
e2,我们旨在识别
e
1
e_1
e1和
e
2
e_2
e2的关系。对自动关系分类有相当大的兴趣,无论是作为目的本身还是作为各种NLP应用程序的中间步骤。
最具代表性的关系分类方法使用监督学习算法:已经证明这些方法是有效的并且产生相对高的性能。监督方法可以进一步分为基于特征的方法和基于核函数的方法。基于特征的方法使用一系列经过文本分析后的特征。他们将这些特征转换为符号ID,然后使用类似于词袋模型的方法将其转换为向量。相反,基于内核的方法需要以解析树(比如,依赖解析树)的形式预处理的输入数据。这些方法很有效,因为它们利用了大量的语言知识。然而,提取的特征或精心设计的内核通常源自预先存在的NLP系统的输出,这导致现有工具中的错误传播并阻碍这些系统的性能。考虑提取尽可能独立于现有NLP工具的特征是很有吸引力的。
为了识别名词对之间的关系,有必要巧妙地结合句子中不同句法和语义结构的词汇和句子级特征。比如,在句子““The
[
f
i
r
e
]
e
1
{[fire]}_{e1}
[fire]e1 inside WTC was caused by exploding
[
f
u
e
l
]
e
2
{[fuel]}_{e2}
[fuel]e2”,为了识别fire和fuel之间的“Cause-Effect”关系,我们通常利用标记的名词实体和整个句子的含义。
二、Motivation
传统方法依赖于特征工程或NLP工具包,使用现有的NLP工具很难设计出高质量的特征,耗费人力,并且容易导致错误传播。
三、Model
3.1 The Neural Network Architecture
图一显示了关系分类模型的网络架构。网络的输入为句子,提取多层次特征,其中较高级别表示输入的更抽象方面。它主要包括以下三个组成部分:单词表示,特征抽取和输出。系统不需要任何复杂的句法或语义预处理,系统的输入是带有两个标记名词的句子。然后单词序列转换为词向量矩阵,接下来,分别提取词法和句子级别特征,然后拼接形成最终特征向量。最后将特征向量喂给softmax进行关系分类。
3.2 Word Representation
将单词序列转换成词向量矩阵。
3.3 Lexical Level Features
词汇级别特征是决定关系的重要线索。传统的词汇层次特征主要包括名词本身,名词对的类型和实体之间的词序列,其质量在很大程度上取决于现有NLP工具的结果。本文使用通用词嵌入作为基本特征的来源。我们选择标记名词和上下文单词的词嵌入。这些特征全部拼接得到我们的词汇级别特征。表一显示了与句中标记名词有关的词嵌入。
3.4 Sentence Level Features
在本节中,我们提出了一个最大池化的卷积神经网络,以提供句子级别表示并自动提取句子级别的特征。图二显示了句子级特征抽取的框架。在卷积窗口中,每个单词由词特征和位置特征共同表示。
3.4.1 Word Features
分布式假设理论指出,在相同语境中出现的词语往往具有相似的含义。为了捕捉这种特性,WF结合了词向量本身和词周围上下文的向量表示。给定一个句子S:
[
P
e
o
p
l
e
]
0
h
a
v
e
1
b
e
e
n
2
m
o
v
i
n
g
3
b
a
c
k
4
i
n
t
o
5
[
d
o
w
n
t
o
w
n
]
6
{[People]}_0\ \ have_1\ \ been_2\ \ moving_3\ \ back_4\ \ into_5\ \ {[downtown]}_6
[People]0 have1 been2 moving3 back4 into5 [downtown]6。标记的名词与标签y相关联,标签y定义标记的对包含的关系类型。WF可以表示如下:
{
[
x
s
,
x
0
,
x
1
]
,
[
x
0
,
x
1
,
x
2
]
,
.
.
.
,
[
x
5
,
x
6
,
x
e
]
,
}
\{[x_s,x_0,x_1],[x_0,x_1,x_2],...,[x_5,x_6,x_e],\}
{[xs,x0,x1],[x0,x1,x2],...,[x5,x6,xe],}
3.4.2 Position Features
关系分类是一个非常复杂的任务。传统地,结构化特征(名词对之间的最短依赖路径)用于解决这个问题。显然,仅通过WF无法捕获此类结构信息。有必要指定哪个输入标记是句子中的目标名词。为此、,提出PF用于关系分类。在本文中,PF是当前词与
w
1
w_1
w1和
w
2
w_2
w2的相对距离的组合。比如,句中的“moving”与“people”、“downtown”的相对距离分别是3和-3。相对距离会转换为一个维度为
d
e
d_e
de的向量、然后当前词的PF可以表示为
[
d
1
,
d
2
]
[d_1,d_2]
[d1,d2]。结合WF和PF为
[
W
F
,
P
F
]
T
{[WF,PF]}^T
[WF,PF]T,输入到卷积模块中。
接下来就是合并词级别特征和句子级别特征,然后进行分类,不再赘述。
四、Experiment
- 数据集:SemEval-2010 Task 8数据集
五、Conclusion
我们探索了在没有复杂的NLP预处理的情况下进行关系分类的可行性。 卷积DNN用于提取词汇和句子级别的特征。为了指定应该为其分配关系标签的单词对,使用位置特征来编码卷积DNN中与目标名词对的相对距离。我们使用SemEval-2010 Task 8数据集进行实验。 实验结果表明,所提出的位置特征对于关系分类至关重要。 提取的词汇和句子级别特征对于关系分类是有效的。 我们的方法优于最先进的方法。