【笔记】Three Sentences Are All You Need: Local Path Enhanced DocumentRelation Extraction
看前预备知识
信息抽取的三个最重要的子任务:
-
实体抽取
也就是实体识别,包括实体的检测(find)和分类(classify)
-
关系抽取
通常是三元组(triple)抽取,一个谓词带两个形参
-
事件抽取
相当于一种多元关系的抽取。
摘要
在本文中,作者提出了一种简单但有效的方法来启发式地选择证据句子进行文档关系抽取,它可以很容易地与BiLSTM结合,在基准数据集上获得良好的性能,甚至比基于图神经网络的方法更好。
代码: https://github.com/AndrewZhe/Three-Sentences-Are-All-You-Need
本文的目的是抽取文档的实体间关系,在给定的文档中,实体对是怎么生成的?
给定的DocRED数据集中,实体是已经生成好的。
一、Introduction
关系抽取(RE)的任务是提取文本中实体对之间的关系。
文档抽取中对于给定实体,抽取它们的关系可能只需要几句话而不是整个文档,反而阅读整篇文章会引入不相关的信息。
图1:从DocRED数据集中提取的一个案例。虽然文件有6句话,但每个关系实例只有1到2句话作为证据。
如图1所示:S[1]足可以承认Finland是Espoo的国家,识别其余两个实例也只需要两句话作为支持证据。虽然该文档包含6句话,证据可能来自S[1]∼S[6],但可以通过只读1个或2个相关的句来识别每个关系实例。
由上例引出问题:给定一个实体对,需要多少个句子来确定它们之间的关系?
表1:3个数据集中确定关系对之间关系需要句子数的统计;#Sent表示文档平均多少句子。
作者发现:超过95%的实例需要不超过3句句子作为支持证据,87%的实例甚至只需要2句或更少。
作者在研究实体对在带注释的支持证据中,是如何与上下文相关的?发现注释一般选择连接两个实体的句子。因此,作者设计3个启发式规则来从文档中提取一个路径集,看做支持证据的近似值。
(1)Consecutive Paths:两个实体很近的时候,在3个句子以内;
(2) Multi-Hop Paths:对应于在遥远的句子中的实体对,它可以通过其他在不同的句子中与头实体和尾实体同时出现的实体来桥接。例如,图1中的第3个示例:实体对the EC Parish和Finland就是通过实体The Espoo Cathedral来桥接的。
(3)Default Paths:当前两个规则都不适用时,收集所有包含头实体或尾实体的句子对作为默认路径。
二、路径
2.1 Consecutive Paths
先前研究表明,大多数居间关系往往出现在附近的文本中。因此,当头实体和尾实体在附近的句子中时,选择连续的句子来形成一个路径:如果在句子 S i S_i Si中有一次提到头实体,在句子 S j S_j Sj中有一次提到尾实体,这两个句子以及中间的句子如 S i + 1 , . . . , S j − 1 ( 或 S j + 1 , . . . , S i − 1 当 i ≥ j ) S_{i+1},...,S_{j-1}(或 S_{j+1},...,S_{i-1}当i≥j) Si+1,...,Sj−1(或Sj+1,...,Si−1当i≥j)形成了连接这两个实体的可能路径。
只要不超过3句话,就可以进行推理,即 ∣ i − j ∣ ≤ 2 |i-j|≤2 ∣i−j∣≤2。这个定义可以自然扩展到句子内情况(j=i)。因此,句内情况看成Consecutive Paths 的一种。一对实体可以对应于多个consecutive paths,因为它们可以被多次提及。
2.2 Multi-Hop Paths
在这种情况下,头实体和尾实体在文档中彼此相距很远,但可以通过桥实体(bridge entities)连接。例如,图1中的第3个示例:实体对the EC Parish和Finland就是通过实体The Espoo Cathedral来桥接的。
对于这些情况,我们从头实体开始,浏览所有的桥实体,到达尾实体,并选择这条路径中所有对应的句子作为路径。
**概念:**对于头实体 e h e_h eh和尾实体 e t e_t et,multi-hop 关系表示有一系列桥实体 e b 1 , . . . , e b k e_{b_1},...,e_{b_k} eb