【笔记】Three Sentences Are All You Need Local Path Enhanced DocumentRelation Extraction

sun_yi_gui

于 2021-11-30 18:32:55 发布

阅读量1.2k

点赞数 2

分类专栏： NLP 笔记 python 文章标签： nlp

本文链接：https://blog.csdn.net/sun_yi_gui/article/details/121639593

版权

作者提出了一种简单的方法，通过选取局部路径作为证据进行文档关系抽取，结合BiLSTM在基准数据集上取得良好效果，优于基于图神经网络的方法。

摘要由CSDN通过智能技术生成

【笔记】Three Sentences Are All You Need: Local Path Enhanced DocumentRelation Extraction

看前预备知识

信息抽取的三个最重要的子任务：

实体抽取

也就是实体识别，包括实体的检测（find）和分类（classify）
关系抽取

通常是三元组（triple）抽取，一个谓词带两个形参
事件抽取

相当于一种多元关系的抽取。

摘要

在本文中，作者提出了一种简单但有效的方法来启发式地选择证据句子进行文档关系抽取，它可以很容易地与BiLSTM结合，在基准数据集上获得良好的性能，甚至比基于图神经网络的方法更好。

代码： https://github.com/AndrewZhe/Three-Sentences-Are-All-You-Need

本文的目的是抽取文档的实体间关系，在给定的文档中，实体对是怎么生成的？

给定的DocRED数据集中，实体是已经生成好的。

一、Introduction

关系抽取（RE）的任务是提取文本中实体对之间的关系。

文档抽取中对于给定实体，抽取它们的关系可能只需要几句话而不是整个文档，反而阅读整篇文章会引入不相关的信息。
在这里插入图片描述

图1：从DocRED数据集中提取的一个案例。虽然文件有6句话，但每个关系实例只有1到2句话作为证据。

如图1所示：S[1]足可以承认Finland是Espoo的国家，识别其余两个实例也只需要两句话作为支持证据。虽然该文档包含6句话，证据可能来自S[1]∼S[6]，但可以通过只读1个或2个相关的句来识别每个关系实例。

由上例引出问题：给定一个实体对，需要多少个句子来确定它们之间的关系？
在这里插入图片描述

表1：3个数据集中确定关系对之间关系需要句子数的统计；#Sent表示文档平均多少句子。

作者发现：超过95%的实例需要不超过3句句子作为支持证据，87%的实例甚至只需要2句或更少。

作者在研究实体对在带注释的支持证据中，是如何与上下文相关的？发现注释一般选择连接两个实体的句子。因此，作者设计3个启发式规则来从文档中提取一个路径集，看做支持证据的近似值。

（1）Consecutive Paths：两个实体很近的时候，在3个句子以内；

（2） Multi-Hop Paths：对应于在遥远的句子中的实体对，它可以通过其他在不同的句子中与头实体和尾实体同时出现的实体来桥接。例如，图1中的第3个示例：实体对the EC Parish和Finland就是通过实体The Espoo Cathedral来桥接的。

（3）Default Paths：当前两个规则都不适用时，收集所有包含头实体或尾实体的句子对作为默认路径。

二、路径

2.1 Consecutive Paths

先前研究表明，大多数居间关系往往出现在附近的文本中。因此，当头实体和尾实体在附近的句子中时，选择连续的句子来形成一个路径：如果在句子 $S_i$ 中有一次提到头实体，在句子 $S_j$ 中有一次提到尾实体，这两个句子以及中间的句子如 $S_{i+1},...,S_{j-1}(或 S_{j+1},...,S_{i-1}当i≥j)$ 形成了连接这两个实体的可能路径。