关系抽取专题(四)--Neural Relation Extraction with Selective Attention over Instances

关系抽取论文笔记4: Neural Relation Extraction with Selective Attention over Instances

Author: Yankai Lin, Shiqi Shen, Zhiyuan Liu , Huanbo Luan, Maosong Sun

清华大学

来源:ACL16

4.1 研究动机

本文是刘知远老师组的工作,也是之前组队比赛就推荐的bag level 关系抽取的base line 论文,值得仔细推敲一下。本文主要针对的是在远程标注(distant supervision)的情况下,如何处理含有大量噪声数据的关系抽取任务。在本文之前的工作,是只取一个最相关的句子作为关系抽取的实例,但是这样没有充分的利用语料。

4.2 研究方法

Bag-level的关系抽取任务的形式化定义: 给定一组句子 { x 1 , x 2 , . . . x n } \{x_1,x_2,...x_n\} {x1,x2,...xn}和两个相关实体,模型输出实体对之间属于关系的概率。模型主要包含两个部分:
1) Sentence Encoder: 对句子利用CNN/PCNN进行编码,其结构如图4.1所示
2) Selective Attention over Instances: 给予根相应关系一致的句子更高的权重。对于selective attention的定义如下: α i = e x p ( e i ) ∑ k e x p ( e k ) , s = ∑ i α i x i \alpha_i = \frac{exp(e_i)}{\sum_k exp(e_k)}, s = \sum_i \alpha_ix_i αi=kexp(ek)exp(ei)s=iαixi。其中 e i e_i ei的定义为: e i = x i A r e_i = x_iAr ei=xiAr,其中 x x x表示编码后的句子向量, A A A是一个对角的权重矩阵,属于参数, r r r则是预测的关系向量。

在selective attention之上,模型对s进行一个线性变换,在接一个softmax作为最后的关系概率输出,即
o   =   Ms   +   d \textbf{o = Ms + d} o = Ms + d
p ( r ∣ S , θ ) = e x p ( o r ) ∑ k = 1 n r e x p ( o k ) p(r|S,\theta)=\frac{exp(o_r)}{\sum_{k=1}^{n_r}exp(o_k)} p(rS,θ)=k=1nrexp(ok)exp(or)
structure

图4.1 The architecture of CNN/PCNN used for sentence encoder

4.3 实验结果

从实验结果看,句子级别的attention,对于远程标注的数据集有比较明显的提升
result_1

4.4 创新点

本文的主要贡献有三点:
1) 充分利用了实体间的所有关系表达的句子
2) 有效的去噪
3) 有比较好的适配性,文中提到对于两类CNN均在该任务下有明显提升

4.5 个人点评

本文在当时,算是第一篇把attention用在distant supervision的任务中,个人觉得,算是attention一个非常好的切入点。但是,对于bag level的关系抽取来说,数据不均衡和噪声数据确实非常影响模型的可用性。attention是一个很好的方法,但是目前实践看来,可能还不够。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值