关系抽取论文笔记3: Relation Classification via Multi-Level Attention CNNs
Author: Linlin Wang, Zhu Cao, Gerard de Melo, Zhiyuan Liu
清华大学,罗格斯大学
来源:ACL16
3.1 研究动机
本文的一作是叉院大神,指导老师更是有耳熟能详的刘知远老师,所以入选关系抽取精读系列。它的研究动机其实主要是两点:1)端到端的框架,不需要人工的feature设计,这是同时期几篇做这个方向的顶会论文共同的出发点。2)深入的去理解关系抽取这个任务,把握它和一般分类问题的细致差别,从而在网络结构,主要是attention设计,以及loss fuction的设计上去针对性的优化。
3.2 研究方法
本文的架构是在之前的CNN作关系抽取的基础上,加了两层attention,一层是输入层的,一层是池化层的,具体如下:
图3.1 模型网络架构
文章首先考虑的是loss function的设计,将其改成了
其中,
δ
θ
(
S
,
y
)
\delta_{\theta}(S,y)
δθ(S,y)表示对于句子S,模型预测的结果和关系的真实标签结果的距离,即
这里有一个负采样的设计,即最小化正样本的边界,最大化负样本的边界。目标函数中的1则是代表边界,因为已经normalize了,
β
\beta
β是超参,最后一部分代表了L2正则。
输入层的构建,作者沿用之前的工作,即(词向量,位置编码1,位置编码2)这样的拼接向量来做句子的表征,同时采用大小为k的滑动窗口作为上下文信息,即 Z = [ z 1 , z 2 . . . z n ] Z=[z_1,z_2...z_n] Z=[z1,z2...zn]。
对于输入层的attention,作者采用了两个对角矩阵
A
i
,
i
j
=
f
(
e
j
,
w
i
)
A^j_{i,i} = f(e_j ,w_i)
Ai,ij=f(ej,wi), 来定义每一个词和两个实体之间的相似程度,即
α
i
j
=
e
x
p
(
A
i
,
i
j
)
∑
i
′
=
1
n
e
x
p
(
A
i
′
,
i
′
j
)
\alpha_i^j=\frac{exp(A_{i,i}^j)}{\sum_{i'=1}^nexp(A_{i',i'}^j)}
αij=∑i′=1nexp(Ai′,i′j)exp(Ai,ij), 基于词,可以得到Input attention 的组合,即矩阵
R
=
[
r
1
,
r
2
.
.
.
,
r
n
]
R =[r_1,r_2...,r_n]
R=[r1,r2...,rn], 其中,
r
i
=
z
i
α
i
1
+
α
i
2
2
r_i = z_i \frac{\alpha_i^1+\alpha_i^2}{2}
ri=zi2αi1+αi2, Z 是一个k窗口的词向量。卷积层的输入,是由词向量,两个位置向量,以及两个attention组合共同决定。
模型卷积层的设计是标准的,即
R
∗
=
t
a
n
h
(
W
f
R
+
B
f
)
R^* = tanh(W_fR + B_f)
R∗=tanh(WfR+Bf)
文章的另一个关键设计是polling attention, 其实这里的改进就是,不是单纯的max,而是对于每一个池化窗口的元素,考虑他的权重,这个权重,就是池化attention, 即
A
i
,
j
p
=
e
x
p
(
G
i
,
j
)
∑
i
′
=
1
n
e
x
p
(
G
i
′
,
j
)
A_{i,j}^p=\frac{exp(G_{i,j})}{\sum_{i'=1}^n exp(G_{i',j})}
Ai,jp=∑i′=1nexp(Gi′,j)exp(Gi,j)。 其中G的定义为
G
=
R
∗
T
U
W
L
G = R^{*T}UW^L
G=R∗TUWL, 池化的输出 则为:
w
i
O
=
m
a
x
j
(
R
∗
A
p
)
i
,
j
w^O_i= max_j(R^*A^p)_{i,j}
wiO=maxj(R∗Ap)i,j,其中R* 为卷积层输出。
3.3 实验结果
这篇文章取得了数据集的SOTA,比之前的方案f1提高了4%.
3.4 创新点
1) 采用了多层的attention机制,即输入层的entity-specific attention以及池化层的relation-specific pooling attention。
2)设计了新的loss function,即pair-wise margin-based
objective function
3)取得了 SemEval 2010 Task 8当时的STOA,F1 达到了88%,这个比前两篇文章分享的方案有了比较大的提升。
3.5 个人点评
这篇文章思路其实没有特别新颖,但是无论是attention 的设计还是loss function的改进,都很细致,充分考虑了关系抽取任务的特点。