【笔记】Three Sentences Are All You Need Local Path Enhanced DocumentRelation Extraction

作者提出了一种简单的方法,通过选取局部路径作为证据进行文档关系抽取,结合BiLSTM在基准数据集上取得良好效果,优于基于图神经网络的方法。
摘要由CSDN通过智能技术生成

【笔记】Three Sentences Are All You Need: Local Path Enhanced DocumentRelation Extraction

看前预备知识

信息抽取的三个最重要的子任务:

  • 实体抽取

    也就是实体识别,包括实体的检测(find)和分类(classify)

  • 关系抽取

    通常是三元组(triple)抽取,一个谓词带两个形参

  • 事件抽取

    相当于一种多元关系的抽取。

摘要

在本文中,作者提出了一种简单但有效的方法来启发式地选择证据句子进行文档关系抽取,它可以很容易地与BiLSTM结合,在基准数据集上获得良好的性能,甚至比基于图神经网络的方法更好。

代码: https://github.com/AndrewZhe/Three-Sentences-Are-All-You-Need

本文的目的是抽取文档的实体间关系,在给定的文档中,实体对是怎么生成的?

给定的DocRED数据集中,实体是已经生成好的。

一、Introduction

关系抽取(RE)的任务是提取文本中实体对之间的关系。

文档抽取中对于给定实体,抽取它们的关系可能只需要几句话而不是整个文档,反而阅读整篇文章会引入不相关的信息。
在这里插入图片描述


图1:从DocRED数据集中提取的一个案例。虽然文件有6句话,但每个关系实例只有1到2句话作为证据。

如图1所示:S[1]足可以承认Finland是Espoo的国家,识别其余两个实例也只需要两句话作为支持证据。虽然该文档包含6句话,证据可能来自S[1]∼S[6],但可以通过只读1个或2个相关的句来识别每个关系实例。

由上例引出问题:给定一个实体对,需要多少个句子来确定它们之间的关系?
在这里插入图片描述


表1:3个数据集中确定关系对之间关系需要句子数的统计;#Sent表示文档平均多少句子。

作者发现:超过95%的实例需要不超过3句句子作为支持证据,87%的实例甚至只需要2句或更少。

作者在研究实体对在带注释的支持证据中,是如何与上下文相关的?发现注释一般选择连接两个实体的句子。因此,作者设计3个启发式规则来从文档中提取一个路径集,看做支持证据的近似值。

(1)Consecutive Paths:两个实体很近的时候,在3个句子以内;

(2) Multi-Hop Paths:对应于在遥远的句子中的实体对,它可以通过其他在不同的句子中与头实体和尾实体同时出现的实体来桥接。例如,图1中的第3个示例:实体对the EC Parish和Finland就是通过实体The Espoo Cathedral来桥接的。

(3)Default Paths:当前两个规则都不适用时,收集所有包含头实体或尾实体的句子对作为默认路径。

二、路径

2.1 Consecutive Paths

先前研究表明,大多数居间关系往往出现在附近的文本中。因此,当头实体和尾实体在附近的句子中时,选择连续的句子来形成一个路径:如果在句子 S i S_i Si中有一次提到头实体,在句子 S j S_j Sj中有一次提到尾实体,这两个句子以及中间的句子如 S i + 1 , . . . , S j − 1 ( 或 S j + 1 , . . . , S i − 1 当 i ≥ j ) S_{i+1},...,S_{j-1}(或 S_{j+1},...,S_{i-1}当i≥j) Si+1,...,Sj1(Sj+1,...,Si1ij)形成了连接这两个实体的可能路径。

只要不超过3句话,就可以进行推理,即 ∣ i − j ∣ ≤ 2 |i-j|≤2 ij2。这个定义可以自然扩展到句子内情况(j=i)。因此,句内情况看成Consecutive Paths 的一种。一对实体可以对应于多个consecutive paths,因为它们可以被多次提及。

2.2 Multi-Hop Paths

在这种情况下,头实体和尾实体在文档中彼此相距很远,但可以通过桥实体(bridge entities)连接。例如,图1中的第3个示例:实体对the EC Parish和Finland就是通过实体The Espoo Cathedral来桥接的。

对于这些情况,我们从头实体开始,浏览所有的桥实体,到达尾实体,并选择这条路径中所有对应的句子作为路径。

**概念:**对于头实体 e h e_h eh和尾实体 e t e_t et,multi-hop 关系表示有一系列桥实体 e b 1 , . . . , e b k e_{b_1},...,e_{b_k} eb

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值