[ ACL 2019 ] DocRED: A Large-Scale Document-Level Relation Extraction Dataset

Gmeas_HuiMing

已于 2023-03-22 20:25:37 修改

阅读量740

点赞数

分类专栏：论文阅读文章标签：自然语言处理深度学习 nlp

于 2023-03-22 11:36:55 首次发布

本文链接：https://blog.csdn.net/Gmeas_HuiMing/article/details/129706265

版权

DocRED是清华大学创建的大型人工标注文档级关系抽取数据集，用于加速文档级RE研究。它要求模型阅读多个句子并进行推理，包含命名实体、共指信息和句间关系。DocRED提供的远程监督数据也支持弱监督学习。实验表明，现有的RE方法在DocRED上表现不佳，显示出文档级RE的挑战性。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

ACL 2019 | DocRED: A Large-Scale Document-Level Relation Extraction Dataset

DocRED文章标题

论文：https://arxiv.org/abs/1906.06127
代码：https://github.com/thunlp/DocRED
Leaderboard：https://competitions.codalab.org/competitions/20717

DocRED数据集是由清华大学整理的文档级关系抽取数据集，近几年的文档级关系抽取的最新工作基本都是将此数据集作为主要的实验对象。

摘要

文档中的多个实体通常表现出复杂的句间关系，现有的关系提取 (RE) 方法通常侧重于提取单个实体对的句内关系，因此无法很好地处理这些问题。为了加速对文档级 RE 的研究，我们引入了 DocRED，这是一个由 Wikipedia 和 Wikidata 构建的新数据集，具有三个特点：（1）DocRED 同时标注了命名实体和关系，是最大的纯文本文档级关系抽取人工标注数据集； (2) DocRED需要阅读文档中的多个句子，通过综合文档的所有信息来提取实体并推断它们之间的关系； (3) 除了人工标注的数据，我们还提供大规模的远程监督数据，这使得 DocRED 可以用于监督和弱监督场景。为了验证文档级 RE 的挑战，我们实施了最近最先进的 RE 方法，并在 DocRED 上对这些方法进行了全面评估。实证结果表明，DocRED 对现有的 RE 方法具有挑战性，这表明文档级 RE 仍然是一个悬而未决的问题，需要进一步努力。基于对实验的详细分析，我们讨论了未来研究的多个有前景的方向。

为了加速文档级关系抽取的研究，本文提出了一个新的文档级关系抽取数据集——DocRED，这个数据集有三大特点，并且通过实验验证了DocRED 对现有的关系抽取方法具有挑战性，文档级关系抽取值得进一步去研究。

一、简介

DocRED数据样例

每个文档中的样例中，标注有命名实体识别（named entity mentions）、共指信息（coreferance information）、句内和句间关系（intra- and inter-sentence relations）、支持证据（supporting evidence）。在文档中大量关系事实==（什么是关系事实？）==是通过多个句子来表达的。

句子1-(Stockholm, the capotal of, Sweden) + 句子4-(Riddarhuset, locate in, Stockholm) $\to$ (Riddarhuset, country, Sweden).该过程需要阅读和推理文档中的多个句子，根据本文从维基百科文档中抽取的人工注释语料库统计，至少有 40.7% 的关系事实只能从多个句子中提取出来，这是不可忽略的。因此，有必要将 RE 从句子级别推进到文档级别。

现有的一些文档级关系抽取数据集：

非人工标注：Quirk and Poon (2017) and Peng et al. (2017)是远程监督生成的数据集，没有人工标注，噪声大。

特定领域：BC5CDR（Li et al，2016）是一个人工注释的文档级RE数据集，由1500个PubMed文档组成，这些文档在生物医学的特定领域仅考虑“化学诱导的疾病”关系，使其不适合开发通用的文档级RE的目的方法。

特定方法：Levy等人（2017）通过使用阅读理解方法回答问题从文档中提取关系事实，其中问题从实体关联对转换。由于这个工作中提出的数据集是针对特定方法量身定制的，因此它也不适用于文档级RE的其他潜在方法

存在各种问题，所以提出了DocRED

即现有的文档级 RE 数据集要么只有少量手动注释的关系和实体，要么显示来自远程监督的嘈杂注释，要么服务于特定领域或方法。为了加速文档级RE的研究，我们迫切需要一个大规模的、人工标注的、通用的文档级RE数据集。

DocRED是由维基百科和维基数据构建而成的大规模人工标注的通用文档级关系抽取数据集，有以下特点：

DocRED 在 5, 053 个维基百科文档上包含注释的 132, 375 个实体和 56, 354 个关系事实，使其成为最大的人工注释文档级 RE 数据集。
由于DocRED中至少有40.7%的关系事实只能从多个句子中提取，DocRED需要阅读文档中的多个句子，通过综合文档的所有信息来识别实体并推断它们之间的关系。这将 DocRED 与那些句子级别的 RE 数据集区分开来。
我们还提供大规模的远程监督数据来支持弱监督的RE研究。

为了评估 DocRED 的挑战，本文实施了最近最先进的 RE 方法，并在各种设置下对 DocRED 进行了彻底的实验。实验结果表明，现有方法在 DocRED 上的性能显着下降，表明文档级 RE 该任务比句子级 RE 更具挑战性，仍然是一个悬而未决的问题。此外，对结果的详细分析还揭示了多个值得追求的有前途的方向。

二、数据收集

数据集构建的最终目标：包含命名实体识别、实体共指、所有实体对的关系和关系实例的支持证据的人工标注数据和大规模远程监督数据的数据集。

2.1 人工标注数据收集

（1）为维基百科文档生成远程监督标注。
（2）标注文档中提及的所有命名实体和共指信息。
（3）将命名实体提及链接到维基数据项。
（4）标签关系及相应的支持证据。

根据ACE 注释过程其中（2）、（4）步都需要对数据进行三次迭代：(1) 使用命名实体识别 (NER) 模型生成命名实体，或使用远程监督和 RE 模型生成关系推荐。 (2) 人工更正和补充建议。 (3) 审查并进一步修改第二遍的注释结果，以提高准确性和一致性。为了确保注释者得到良好的训练，采用了有原则的训练程序，并且要求注释者在注释数据集之前通过测试任务。并且只有经过精心挑选的有经验的标注者才有资格进行第三遍标注。

使用维基百科文档多种的介绍部分作为语料库（corpus），因为它们通常是高质量的并且包含大部分关键信息。

而维基数据是与维基百科紧密集成的大规模知识库，语料库的文本和知识库之间是强对齐的。

We use the 2018-5-24 dump of English Wikipedia and 2018-3-20 dump of Wikidata.

Stage 1: Distantly Supervised Annotation Generation

为维基百科文档生成弱监督标注

使用 spaCy 实现NER；
将这些提及的命名实体链接到维基数据的数据项，合并其中具有KB id的命名实体提及；
查询Wikidata标记文档中每个合并的命名实体对之间的关系。

长度小于128字的文档被丢弃。为了鼓励推理，我们进一步丢弃包含少于4个实体或少于4个关系实例的文档

输入：维基百科文档、维基数据数据项

输出：107,050个具有远程监督标签的文档，其中我们随机选择5053个文档和最常见的96个关系进行人工注释。

Stage 2: Named Entity and Coreference Annotation

人工注释人员首先审查、更正和补充stage 1中生成的命名实体提及建议，然后合并那些引用相同实体的不同提及，这提供了额外的共指信息。

生成的中间语料库包含各种命名实体类型，包括不属于上述类型的人员、位置、组织、时间、数量和其他实体的名称。

输入：stage 1中的命名实体提及建议

输出：修正后的实体提及和共指信息

Stage 3: Entity Linking

将每个提到的命名实体链接到多个Wikidata项，以便为下一阶段提供远程监督的关系建议。
特别地，数字和时间是语义匹配的。

输入：命名实体和维基数据项

输出：关系建议

Stage 4: Relation and Supporting Evidence Collection.

关系和支持证据的注释基于阶段2，并面临两个主要挑战。第一个挑战来自文档中大量的潜在实体对。一方面，考虑到文档中潜在实体对的数量是实体数量的二次元数(平均19.5个实体)，穷竭地标记每个实体对之间的关系会导致繁重的工作量。另一方面，文档中的大多数实体对不包含关系。第二个挑战在于我们的数据集中存在大量细粒度关系类型。因此，注释者从头开始标记关系是不可行的。通过为人工注释人员提供来自RE模型的建议，以及基于实体链接的远程监督(阶段3)来解决这个问题。 $\to$ 为了缓解标注压力，说明提供给人工注释人员哪些关系建议

平均而言，我们建议每个文档从实体链接获得19.9个关系实例，从RE模型获得7.8个关系实例作为补充。我们要求注释人员检查建议，删除不正确的关系实例并补充遗漏的实例。我们还要求注释者进一步选择所有支持保留关系实例的句子作为支持证据。保留的关系必须体现在文件中，而不依赖于外部世界的知识。最后，从实体链接中保留57.2%的关系实例，从正则模型中保留48.2%的关系实例。

输入：关系建议

输出：关系实例、支持证据

2.2 远程监督数据收集

从106926个文档中删除了5053个人工注释文档，并使用剩下的1010873个文档作为远程监督数据的语料库。

为了确保远程监督数据和人类注释的数据共享相同的实体分布，使用BERT的双向编码器表示重新识别命名实体，该表示对第2.1节中收集的人类注释数据进行了微调，并达到了90.5%的F1分数。（命名实体识别）
我们通过基于启发式的方法将提到的每个命名实体链接到一个Wikidata项，该方法联合考虑目标Wikidata项的出现频率及其与当前文档的相关性。（实体链接）
然后我们用相同的KB id合并命名实体。（共指消解）
最后，通过远程监督标记每个合并实体对之间的关系。（关系建议）

三、数据分析

将分析DocRED的各个方面，以便更深入地理解数据集和文档级RE的任务。

3.1 数据规模

代表性关系抽取数据集规模

代表性关系抽取数据集：

SemEval-2010 Task 8：SemEval数据集来自于2010年的国际语义评测大会中Task 8：“Multi-Way Classification of Semantic Relations Between Pairs of Nominals ”，常用作全监督的关系抽取任务。下载地址、关系抽取数据集介绍。
ACE 2003-2004：MUC会议停开后，ACE将关系抽取任务作为一个子任务从2002至2007年共持续六年。关系抽取任务也被定义的更加规范和系统。其中，获得认可的一届关系抽取任务主要是ACE-2004，其数据来源于语言数据联盟（LDC），分成广播新闻和新闻专线两部分，总共包括451和文档和5702个关系实例。ACE20014提供了丰富的标注信息，从而为信息抽取中的实体识别、指代消解和关系抽取等子任务提供基准的训练和测试语料库。关系抽取常用的数据集和工具。
TACRED：TACRED 是一个大型关系提取数据集，包含 106,264 个示例，这些示例基于新闻专线和网络文本，来自每年TAC 知识库人口 (TAC KBP) 挑战中使用的语料库。TACRED 中的示例涵盖了 TAC KBP 挑战中使用的 41 种关系类型（例如，per:schools_attended和org:members ），或者如果没有定义关系，则标记为*no_relation 。*这些示例是通过结合来自 TAC KBP 挑战和众包的可用人工注释创建的。【数据集分析】TACRED关系抽取数据集分析（一）—— 理解单条实例、TAC 关系抽取数据集。
FewRel：FewRel 是一个Few -shot Relation分类数据集，它包含 70, 000 个自然语言句子，表达 100 个由众包标注的关系。适用于few-shot关系分类任务的大规模监督数据集。a Few-shot Relation classification dataset、论文笔记：FewRel 2.0: Towards More Challenging Few-Shot Relation Classification。
BC5CDR：BC5CDR语料库由 1500 篇 PubMed 文章组成，其中包含 4409 种带注释的化学物质、5818 种疾病和 3116 种化学-疾病相互作用。BC5CDR (BioCreative V CDR corpus)。