关系抽取专题（四）--Neural Relation Extraction with Selective Attention over Instances-CSDN博客

本文链接：https://blog.csdn.net/shark803/article/details/90649386

关系抽取论文笔记4： Neural Relation Extraction with Selective Attention over Instances

Author: Yankai Lin, Shiqi Shen, Zhiyuan Liu , Huanbo Luan, Maosong Sun

清华大学

来源：ACL16

4.1 研究动机

本文是刘知远老师组的工作，也是之前组队比赛就推荐的bag level 关系抽取的base line 论文，值得仔细推敲一下。本文主要针对的是在远程标注（distant supervision）的情况下，如何处理含有大量噪声数据的关系抽取任务。在本文之前的工作，是只取一个最相关的句子作为关系抽取的实例，但是这样没有充分的利用语料。

4.2 研究方法

Bag-level的关系抽取任务的形式化定义：给定一组句子 ${x_1,x_2,...x_n\}$ 和两个相关实体，模型输出实体对之间属于关系的概率。模型主要包含两个部分：
1） Sentence Encoder：对句子利用CNN/PCNN进行编码，其结构如图4.1所示
2） Selective Attention over Instances：给予根相应关系一致的句子更高的权重。对于selective attention的定义如下： $\alpha_i = \frac{exp(e_i)}{\sum_k exp(e_k)}， s = \sum_i \alpha_ix_i$ 。其中 $e_i$ 的定义为： $e_i = x_iAr$ ,其中 $x$ 表示编码后的句子向量， $A$ 是一个对角的权重矩阵，属于参数， $r$ 则是预测的关系向量。

在selective attention之上，模型对s进行一个线性变换，在接一个softmax作为最后的关系概率输出，即
$\textbf{o = Ms + d}$
$p(r|S,\theta)=\frac{exp(o_r)}{\sum_{k=1}^{n_r}exp(o_k)}$
structure

图4.1 The architecture of CNN/PCNN used for sentence encoder

4.3 实验结果

从实验结果看，句子级别的attention，对于远程标注的数据集有比较明显的提升
result_1

4.4 创新点

本文的主要贡献有三点：
1）充分利用了实体间的所有关系表达的句子
2）有效的去噪
3）有比较好的适配性，文中提到对于两类CNN均在该任务下有明显提升

4.5 个人点评

本文在当时，算是第一篇把attention用在distant supervision的任务中，个人觉得，算是attention一个非常好的切入点。但是，对于bag level的关系抽取来说，数据不均衡和噪声数据确实非常影响模型的可用性。attention是一个很好的方法，但是目前实践看来，可能还不够。