关系抽取论文笔记4: Neural Relation Extraction with Selective Attention over Instances
Author: Yankai Lin, Shiqi Shen, Zhiyuan Liu , Huanbo Luan, Maosong Sun
清华大学
来源:ACL16
4.1 研究动机
本文是刘知远老师组的工作,也是之前组队比赛就推荐的bag level 关系抽取的base line 论文,值得仔细推敲一下。本文主要针对的是在远程标注(distant supervision)的情况下,如何处理含有大量噪声数据的关系抽取任务。在本文之前的工作,是只取一个最相关的句子作为关系抽取的实例,但是这样没有充分的利用语料。
4.2 研究方法
Bag-level的关系抽取任务的形式化定义: 给定一组句子
{
x
1
,
x
2
,
.
.
.
x
n
}
\{x_1,x_2,...x_n\}
{x1,x2,...xn}和两个相关实体,模型输出实体对之间属于关系的概率。模型主要包含两个部分:
1) Sentence Encoder: 对句子利用CNN/PCNN进行编码,其结构如图4.1所示
2) Selective Attention over Instances: 给予根相应关系一致的句子更高的权重。对于selective attention的定义如下:
α
i
=
e
x
p
(
e
i
)
∑
k
e
x
p
(
e
k
)
,
s
=
∑
i
α
i
x
i
\alpha_i = \frac{exp(e_i)}{\sum_k exp(e_k)}, s = \sum_i \alpha_ix_i
αi=∑kexp(ek)exp(ei),s=∑iαixi。其中
e
i
e_i
ei的定义为:
e
i
=
x
i
A
r
e_i = x_iAr
ei=xiAr,其中
x
x
x表示编码后的句子向量,
A
A
A是一个对角的权重矩阵,属于参数,
r
r
r则是预测的关系向量。
在selective attention之上,模型对s进行一个线性变换,在接一个softmax作为最后的关系概率输出,即
o
=
Ms
+
d
\textbf{o = Ms + d}
o = Ms + d
p
(
r
∣
S
,
θ
)
=
e
x
p
(
o
r
)
∑
k
=
1
n
r
e
x
p
(
o
k
)
p(r|S,\theta)=\frac{exp(o_r)}{\sum_{k=1}^{n_r}exp(o_k)}
p(r∣S,θ)=∑k=1nrexp(ok)exp(or)
图4.1 The architecture of CNN/PCNN used for sentence encoder
4.3 实验结果
从实验结果看,句子级别的attention,对于远程标注的数据集有比较明显的提升
4.4 创新点
本文的主要贡献有三点:
1) 充分利用了实体间的所有关系表达的句子
2) 有效的去噪
3) 有比较好的适配性,文中提到对于两类CNN均在该任务下有明显提升
4.5 个人点评
本文在当时,算是第一篇把attention用在distant supervision的任务中,个人觉得,算是attention一个非常好的切入点。但是,对于bag level的关系抽取来说,数据不均衡和噪声数据确实非常影响模型的可用性。attention是一个很好的方法,但是目前实践看来,可能还不够。