《Neural Relation Extraction with Selective Attention over Instances》论文解析

蔚蓝的珊瑚海_xdcaxy2013

于 2021-05-06 20:47:20 发布

阅读量518

点赞数 1

分类专栏：经典论文解析文章标签：自然语言处理

本文链接：https://blog.csdn.net/sinat_28729797/article/details/116462387

版权

经典论文解析专栏收录该内容

2 篇文章 0 订阅

订阅专栏

本文主要介绍一篇清华孙茂松教授团队ACL2016上的经典论文。由于网上对这篇经典文章的相关解析多的数不胜数，本文主要介绍其行文结构以及代码结构，主要是为大家以后写相关论文，掌握相关的行文结构和复现代码做为参考，希望能起到抛砖引玉的效果。

经典论文链接：https://www.aclweb.org/anthology/P16-1200v1.pdf

传统经典论文分为7大部分，分别是：(1)摘要(Abstract),(2)引言(Introduction),(3)相关工作（Related Work）,(4)方法(Methodology),(5)实验(Experiments),(6)讨论(Discussion),(7)结论(Conclusion),本文基本也是按照这种套路行文的。具体分析如下：

Abstract部分

远程监督做关系抽取广泛应用，具有研究前景
存在错误标签问题
为了缓解这个问题，作者提出了XXX模型
在真实数据集上得实验结果表明

Introduction部分

知识图谱广泛应用在NLP中许多任务上，是NLP领域重要的研究任务
问题：耗时和劳动密集型，存在错误标签问题，目前的一些解决办法
本文，作者提出XXX模型(句子级注意力CNN模型)，为了解决XXX问题(错误标签传递问题)，作者采用XXX方法（作者创建在多示例上的句子级的注意力机制），动态解决噪音句子问题。作者在真实数据上进行评估关系抽取任务，实验结果表明，我们的结果于SOTA相比取得了重要且持续的效果提升。

本文的贡献可以总结如下：

充分利用每个实体对的句子信息
处理远程监督关系抽取中的错误标签问题，作者提出有选择性的淡化噪声实例
实验表明，选择注意力有益于关系抽取中的两种类型CNN。

Related Work部分

关系抽取是NLP中的关键工作，多数方法需要大量标注数据。它们是耗时且劳动密集型的。（提出问题）

介绍了近年来相关工作，远程监督，多示例，神经网络特征提取：

(1)、Mintz等人[1]2009年用Freebase库对齐平行语料（然而远程监督不可避免的存在错误标签问题，主打远程监督）

(2)、Riedel等人[2]2010年提出多示例单标签模型，Hoffmann2011年，Surdeanu 2012年在关系抽取中采用多示例多标签学习。(多示例学习最开始提出是预测药物活性时解决标签不明确问题。多示例学习考虑每个例子的标签依赖关系，主打多示例学习)

(3)、Bunescu和 Mooney[3]在2007年链接弱监督和多示例学习并把它应用于关系抽取中。（但所有基于特征的方法强烈依赖NLP工具生成的特征质量，但这遭受错误传播问题，特征提取问题）

(4)、Zeng等[4]2014年，dos Santos等人[5]2015年采用一个端到端的卷积神经网络在关系抽取任务上。此外，Xie等[6]2016年试图融合实体的文本信息在关系抽取任务上。(主打神经网络)

然后作者敏锐的提出了问题，句子级关系且遭受训练数据缺乏问题，多示例学习策略卷积网络方法不容易应用于神经网络方法。然后提出Zeng等人2015年结合至少一个多示例学习在神经网络模型去抽取关系在远程监督数据上。它的问题是它们假设每个实体对仅仅只有一个句子是活的(active)。它缺失了大量包含在那些被忽略句子中的信息。然后作者适时的提出了自己的方法，推出一个句子级的注意力机制在多示例学习，它可以有效利用所有的句子信息。

Methodology

给定一个句子集合 $\{x_{1},x_{2},...,x_{n},\}$ ，两个相关的实体，验证每个关系r的概率，本章，作者引入模型的两个主要部分：

（1）、句子编码(Sentence Encoder):给定一个句子x和两个实体，一个CNN被用来构造一个句子x的分布式表示

（2）、对实例的选择性注意(Selective Attention over Instances):当所有句子的分布向量表示被学习到的时候，作者使用句子级的注意力去选择真实表达对应关系的句子。

句子编码(Sentence Encoder)

这步作者直接引入了模型的架构PCNN，其实就是包括普通模型的三个层次结构，编码(词信息+位置信息)，模型(cnn+piecewise pooling)+线程层，预测softmax层

输入表示(Input Representation)：

CNN输入是句子x的原始词，作者首先将词转换成低维向量，这里，每个词通过词编码矩阵被转换成一个向量。此外，为了指定实体对的位置信息，作者也使用到了句子中的所有词的位置信息，并编码进词向量中(目前这些功能已被BERT收纳，直接用BERT及其变体就好)。

词编码(Word Embeddings):词编码旨在转换词到分布式表示，这种编码可以捕获词中的句法(syntactic)和语义(semantic)信息。给定一个由m个词组成的句子x， $x=\{w_{1},w_{2},...w_{m}\}$ ,每个词 ${w_{i}}$ 表示一个真实值的向量。词表示编码为一个列向量用一个编码矩阵 $V\epsilon R^{^{d^{^{a}\times |V|}}}$ ，其中V是固定大小的词表。

位置编码(Position Embeddings).

在关系抽取任务中，那些逼近目标实体的词通常是判断实体间关系的重要信息。类似于Zeng等人[4]2014年，作者使用特定实体对的位置编码信息。它可以帮助CNN追踪头实体(head)和尾实体(tail)的距离。它定义结合从当前词汇到头实体(或者尾实体)的相对距离。例如，在句子“Bill Gates is the founder of Microsoft.”中，词“founder”与头实体“Bill Gates”相对距离为3，与尾实体“Microsoft”相对距离为2。所以位置编码信息对实体关系抽取任务非常重要。

卷积，最大池化和非线性层(Convolution, Max-pooling and Non-linear Layers)

在关系抽取中，主要的挑战是句子的长度是变量且重要信息可以出现在句子中的任意位置。因此，作者认为应该利用所有的本地特征且全局执行关系预测。这里，作者使用一个卷积层融合所有特征。卷积层首先使用长度为l的滑动窗口在句子上抽取本地特征。此地作者假设滑动窗口l长度为3，然后，结合所有的本地特征通过一个最大池化操作为输入句子去获得一个固定大小的向量。第i个卷积层可以用如下公式表达: $p_{i}=[Wq+b]_{i}$ (因为卷积层可以看作一种线性表达)，向量 $x\in R^{^{d^{c}}}$ 的第i-th个元素(其中 $d^{^{c}}$ 是句子编码的大小)可以表达为: $[x]_{i}=max(p_{i})$ ,即最大池化操作。进一步，Zeng等人[7]于2015年提出的PCNN模型，是一个可变的CNN模型，在关系抽取中采用分段最大池化。每个卷积的滤波器 $p_{i}$ 被头实体和尾实体自动切分为分为三段 $(p_{i1},p_{i2},p_{i3})$ ，所有的最大池化操作被自动执行为三段。可以定义为 $[x]_{ij}=max(p_{ij})$ ,且 $[x]_{i}$ 是所有 $[x]_{ij}$ 的连接。最后通过一个非线性层最为输出，例如relu,tanh这样的函数。

示例上的选择注意力(Selective Attention over Instances)

假设实体对(head,tail)集合S包含n个句子,例如 $S=\{x_{1},x_{2},...,x_{n}\}$ ,为了探索所有句子的信息，此模型表达句子S用一个真实向量s当预测关系r。它直接用句子表示 $x_{1},x_{2},...,x_{n}$ 来表示集合S，每个句子代表 $x_{i}$ 包含是否输入句子 $x_{i}$ 中实体对(head,tail)是否存在关系r的信息。其中集合向量s,通过计算所有句子向量的求和操作来表示： $s=\sum \alpha _{i}x_{i}$ ,其中 $\alpha _{i}$ 是每个句子向量 $x_{i}$ 的权重，本文作者通过2种方式定义 $\alpha _{i}$ 。

平均法(Average):假设集合X中的所有句子对集合的贡献度一样，这意味着集合S的编码是所有向量的平均表示： $s=\sum \frac{1}{n}x_{i}$

选择注意力(Selective Attention):错误标签问题不可避免的会发生，因此，如果我们认为每个句子作用相同，错误标签句子将在训练和测试阶段带来大量的噪音。这里，作者使用选择注意力去消除噪音句子，此处， $\alpha _{i}=\frac{exp(e_{i})}{\sum exp(e_{k})}$ ，其中 $e_{i}$ 指的是一个基于查询的功能，它预测输入句子 $x_{i}$ 和关系r之间的相关分数，作者选择双线性形式取得了最好的效果 $e_{i}=x_{i}Ar$ ,其中A是一个对角权重矩阵，r是一个与关系r相关的查询向量。

最终，作者定义条件概率 $p(r|S,\theta )=\frac{exp(o_{r})}{\sum exp(o_{r}))}$ ,其中 $n_{r}$ 是所有关系的总数量，o是与所有关系类型的神经网络的最终输出，可以定义为 $o=Ms+d$ ，M是关系矩阵的表示，d是偏置向量。Zeng等人[7]2015年遵循了这个假设至少一个实体对的提及映射到每个关系上，且仅仅使用每个集合中最高概率的句子作为训练数据，因此，这个方法他们采用多示例(multi-instance)学习能够认为作为选择注意力当选择句子权重的特殊案例，其中最高概率权重设置为1，其余的权重为0。

优化和实现细节Optimization and Implementation Details

这里作者引入模型学习和优化细节，作者定义目标函数使用交叉熵作为集合级的损失函数： $J(\theta )=\sum logp(r_{i}|S_{i},\theta )$ ,其中 $\theta$ 表示模型中的模型中的所有参数，为了解决优化问题，作者采用SGD(stochastic gradient descent)作为优化器，实现细节上作者采用Dropout[8]避免过拟合,用一个伯努利随机变量产生的概率p与中间状态h相乘，随机失效一些节点的方法。

实验Experiments

实验目的是说明此模型用句子级选择注意力能够缓解(alleviate)错误标签问题且能够充分利用句子信息在远程监督的关系抽取任务中。在此中，作者首先介绍实验所用的数据集以及评估机制。接下来使用交叉验证(cross-validation)判断模型超参。然后作者在不同数据集上进行了验证。最终，作者对所提模型和其它几个基于特征的SOTA模型进行了效果比较。

数据集和评价机制(Dataset and Evaluation Metrics)

作者使用Riedel等[9]2010年提出的数据，被两篇论文引用过(Hoffmann et al., 2011[10]; Surdeanu et al., 2012[11]）这个数据集产生数据通过Freebase远程监督方法对齐NYT（New York Times）中关系。实体(Entity mentions)是通过Finkel等人[12]提出的Stanford named entity tagger工具以及Freebase中实体来识别。Freebase关系被分为训练(training)和测试(testing)2部分，训练示例集是2005-2006年的数据，测试示例集是2007年数据。有53种可能的关系（包括NA关系，如果头实体<head>和尾实体<tail>没有关系,则为NA）。类似于Mintz等[13]之前工作(Similar to previous work)，作者评估模型采用(held-out evaluation)评估法，融合precision/recall曲线以及Precision@N (P@N)值。

实验设置(Experimental Settings)

词编码(Word Embeddings)

相对于现在流行的BERT,GPT-3,ELMO这些预训练模型，因为为16年的paper，作者仍采用的是传统的word2vec模式，来对用于训练的NYT语料进行词编码，作者保留那些出现频率高于100次(more than 100 times)的词作为词典(vocabulary)。

参数设置（Parameter Settings）

在超参选择上，追随之前工作(Following previous work),作者使用三折交叉验证(three-fold validation)在训练集上微调其模型，使用一个网格搜索(grid search)去优化参数，选择最佳的学习率，优化器使用SGD，学习率 $\lambda \in \{0.1,0.01,0.001,0.0001\}$ ，滑动窗口（sliding window） $l\in \{1,2,3,..8\}$ ，句子编码大小 $n\in \{50,60,..,300\}$ ,batch_size: $B\in \{40,60,640,1280\}$ .对其它超参，由于其对结果影响微乎其微。作者沿用了Zeng等[14]人2014年模型的相关参数。

句子级选择注意力(Effect of Sentence-level Selective Attention)

为了说明句子级选择注意力的作用，作者通过held-out评价利用经验比较了不同的方法。作者选用Zeng等人[14]在2014年提出的一种CNN模型，以及Zeng等人[7]在2015年提出的PCNN作为他的句子编码，实现它们通过获得作者认为可比较的结果。作者通过句子级的注意力ATT比较了两种不同类型的CNN，其中一种是朴素版(AVE),它表示每个句子集用集合中每个句子的平均向量，用到了Zeng等人[7]使用过的至少一个多示例(at-least-one multi-instance)学习(ONE)方法。

通过Fig 3作者有如下观察结果：

(1)、对CNN和PCNN，与传统的CNN/PCNN方法相比ONE(多示例)方法带来更好的表现。原因在于原始的远程监督训练数据包含许多噪音，它们损害关系抽取效果。

(2)、对CNN和PCNN而言，AVG方法是非常有用的方法。它表明(indicates)考虑更多的句子是有益于关系抽取任务的，由于噪音信息可以通过信息的互相补充而减少。

(3)、对CNN和PCNN，AVG方法与ONE方法相比有一个类似的表现。它表明(It indicates that)，由于它认为每个句子贡献一样，尽管AVG方法带来了更多句子的信息，它也带来了从错误标签句子的噪音，这可能损坏关系抽取效果(hurt the performance of relation extraction)。

(4)、对CNN和PCNN，与其它方法相比(包括AVG方法)注意力ATT方法获得了最高的准确率(precision)在整个recall范围内。它表面提出的选择注意力方法是有效的（It indicates that the proposed selective attention is beneficial）。

句子数量影响(Effect of Sentence Number)

在原始测试数据集中，将近74,857条实体对仅仅与1条句子相关联，占比超过总数据的3/4，即一个示例仅仅对应一条句子。到底是多句好，还是单句子更有优势，作者在测试集上进行了比较。

One (方法):对每个测试实体对(entity pair)，作者随机选择了一个句子且使用这个句子预测关系。
Two(方法):对每个测试实体对(entity pair)，作者随机选取2个句子且进行关系抽取。
All(方法):使用实体对中所有句子进行关系抽取。

注意(Note that),作者使用训练集中的所有句子。作者将报告每个模型的P@100,P@200,P@300以及它们的平均结果，评价机制为(held-out evaluation)。

上表2可知，在三个测试集上，分析如下(From the table, we can see that)：

对CNN和PCNN，注意力ATT方法获得了所有测试集上最好的效果，这说明了多示例上做句子级选择注意力机制的有效性(It demonstrates the effectiveness of sentence-level
selective attention for multi-instance learning)。
对CNN和PCNN,AVE方法和ATT效果基本相当(is comparable to),但随着每个实体对中测试句子数量的增长，AVG方法的效果增长乏力。甚至随着句子数量增长P@100, P@200效果有所下降，原因在于（The reason is that),因为认为每个句子贡献度一样，句子中的噪音将影响关系抽取效果。
CNN+AVE和CNN+ATT相比于CNN+ONE方法在ONE test setting上分别有5%和8%的提升。由于每个实体对仅仅有一个句子在此测试集上，这些方法唯一的不同在于训练(training)。这说明,尽管它可能带来额外噪音，但利用所有句子信息仍有助于此任务。(Hence, it shows that utilizing all sentences will bring in more information although it may also bring in some extra noises)
对CNN 和PCNN方法，ATT方法与其它两个基线系统(outperforms other two baselines)在Two和All测试集上有5%和9%的提升。它暗示，考虑更多的有用信息(It indicates that by taking more useful information into account),CNN+ATT方法更有助于关系抽取任务(more reliable and beneficial to relation extraction)。

特征方法的比较(Comparison with Feature-based Approaches)

为了评测所提方法(To evaluate the proposed method)，作者选择下面三个基于特征的方法进行效果比较(we select the following three feature-based methods for comparison)，使用方法为held-out evaluation。

Mintz[1,13]:是传统的远程监督模型方法

MultiR[10]:Hoffmann等人2011年提出的概率，图形化的多示例(multi-instance)模型,它主要处理重叠关系（overlapping relations）

MIML[11]:Surdeanu等人2012年提出的联合多示例(multiple instances)和多关系(multiple relations)的模型

作者通过原著者释放的源码实现了这些模型(We implement them with the source codes released by the authors)。

Figure 4:传统方法和所提方法比较
(Performance comparison of proposed
model and traditional methods)

上图Figure 4显示了各个模型(for each method)的precision/recall曲线。我们可以观察到(We can observe that)

CNN/PCNN+ATT比所有基于特征的方法(feature-based methods)在整个recall范围内有很大效果提升（significantly outperforms）。
PCNN+ATT表现明显好于(performs much better as compared to)CNN+ATT。

参考文献：

[1].Mike Mintz, Steven Bills, Rion Snow, and Dan Jurafsky.2009. Distant supervision for relation extraction without labeled data. In Proceedings of ACLIJCNLP,pages 1003–1011.

[2].Sebastian Riedel, Limin Yao, and Andrew McCallum.2010. Modeling relations and their mentions without labeled text. In Proceedings of ECML-PKDD,pages 148–163.

[3].Razvan Bunescu and Raymond Mooney. 2007. Learning to extract relations from the web using minimal supervision. In Proceedings of ACL, volume 45,page 576.

[4].Daojian Zeng, Kang Liu, Siwei Lai, Guangyou Zhou,and Jun Zhao. 2014. Relation classification via convolutional deep neural network. In Proceedings of COLING, pages 2335–2344.

[5].Cıcero Nogueira dos Santos, Bing Xiang, and Bowen Zhou. 2015. Classifying relations by ranking with convolutional neural networks. In Proceedings of ACL, volume 1, pages 626–634

[6].Ruobing Xie, Zhiyuan Liu, Jia Jia, Huanbo Luan, and Maosong Sun. 2016. Representation learning of knowledge graphs with entity descriptions.

[7].Daojian Zeng, Kang Liu, Yubo Chen, and Jun Zhao.2015. Distant supervision for relation extraction via piecewise convolutional neural networks. In Proceedings of EMNLP.

[8].Nitish Srivastava, Geoffrey Hinton, Alex Krizhevsky,Ilya Sutskever, and Ruslan Salakhutdinov. 2014.Dropout: A simple way to prevent neural networks from overfitting. JMLR, 15(1):1929–1958.

[9].Sebastian Riedel, Limin Yao, and Andrew McCallum.2010. Modeling relations and their mentions without labeled text. In Proceedings of ECML-PKDD, pages 148–163.

[10].Raphael Hoffmann, Congle Zhang, Xiao Ling, Luke Zettlemoyer, and Daniel SWeld. 2011. Knowledgebased weak supervision for information extraction of overlapping relations. In Proceedings of ACLHLT,pages 541–550.

[11].Mihai Surdeanu, Julie Tibshirani, Ramesh Nallapati,and Christopher D Manning. 2012. Multi-instance multi-label learning for relation extraction. In Proceedings of EMNLP, pages 455–465.

[12].Jenny Rose Finkel, Trond Grenager, and Christopher Manning. 2005. Incorporating non-local information into information extraction systems by gibbs sampling. In Proceedings of ACL, pages 363–370. Association for Computational Linguistics.

[13].Mike Mintz, Steven Bills, Rion Snow, and Dan Jurafsky.2009. Distant supervision for relation extraction without labeled data. In Proceedings of ACLIJCNLP, pages 1003–1011.

[14].Daojian Zeng, Kang Liu, Siwei Lai, Guangyou Zhou,and Jun Zhao. 2014. Relation classification via convolutional deep neural network. In Proceedings of COLING, pages 2335–2344.