引言
近期关注篇章级关系抽取,两个原因,一是之前做大规模知识抽取,遗留的一块内容就是篇章级关系抽取和事件抽取;另一个是大模型目前在抽取任务,特别是复杂抽取任务上表现不如其他NLP任务,这也引起我的研究兴趣。作为积累,首先阅读刘知远老师实验室发布的DoCRED作为积累的第一步。
数据采集
人工标注数据采集
人工标注数据是通过四个阶段收集的:
(1)为维基百科相关文档生成远程监督标注。 首先用spacy工具对wiki的文章进行NER, 然后将识别的实体链接wiki的item,并将相同KB ID的实体进行合并。最后,通过查询wiki,对合并后的实体间的关系进行标注。在wiki文章的选择上,少于128词以及少于4个实体的文章会被丢弃。最后从10750篇文章中随机选择5053篇,并选择最频繁使用的96种关系进行标注。
(2)在文档中标注所有命名实体提及(Named Entity Mention)和指代(coreference)信息。为了提供高质量的命名实体提及和指代信息,要求人工标注者首先对第一阶段生成的命名实体提及进行审核、修正和补充,然后合并那些指向相同实体的不同提及,从而提供额外的指代信息。
(3)将命名实体提及与维基数据条目进行链接。 在这个阶段,将每个命名实体提及与多个维基数据项(Wikidata item)进行关联,为下一个阶段提供来自远程监督的关系建议。具体而言,每个命名实体提及与一个候选的维基数据项集合关联,该集合包含所有在文字上与之完全匹配的维基数据项的名称或别名。此外,还使用由文档作者超链接到命名实体提及的维基数据项,以及实体链接工具TagMe来进一步扩展候选集
(4)标记关系及其相应的支持证据。关系和支持证据的标注基于第2阶段的命名实体提及和指代信息。数据集中包含了大量细粒度的关系类型。因此,让标注者从零开始标注关系是不可行的。通过为人工标注者提供来自关系抽取模型的建议以及基于实体链接的远程监督(第3阶段)来解决这个问题。平均而言,从实体链接中为每个文档推荐19.9个关系实例,从RE模型中为每个文档推荐7.8个关系实例进行补充。要求标注者审核这些建议,删除错误的关系实例并补充漏掉的实例。还要求标注者进一步选择所有支持保留的关系实例的句子作为支持证据。保留的关系必须在文档中得到体现,而不依赖外部世界知识。
远程监督数据采集
除了人工注释的数据外,DocRED还收集了大规模的远程监督数据,补充弱监督的关系抽取场景。从总的收集的文档中,删除了5,053份人工标注的,将剩下的101,873份文档作为远程监督数据的语料库。为了确保远程监督数据和人工标注数据具有相同的实体分布,使用了在人工标注数据上微调的BER进行了命名实体识别。DocRED基于启发式方法的方式将每个命名实体mention链接到一个相关的Wikidata item,实体链接的过程同时考虑了该item的频率和其与当前文章的相关性。之后,将具有相同知识库ID的命名实体 mention进行合并。最后,通过远程监督的方式标记每个合并实体对之间的关系。
数据分析
DocRED 从数据统计上看,在文章数、句子数、单词数、实体数量,特别是关系类型数量上,相比于句子级别的关系抽取数据集,如SemEval-2010 Task 8, ACE 2003-2004, TACRED, FewRel等都有了显著提升。值得一提的是,DocRED选取了wiki上的96种关系,包含了科学、艺术、个人生活等方面,不限于某一个特定的领域。此外,关系类型被组织成明确定义的层次结构和分类体系,可以为文档级关系抽取系统提供丰富的信息。
DocRED数据集另一个特点是61.1%的句子需要综合多个句子的信息进行推理。文章列举了推理类型的分布逻辑推理(26.6%)、共指推理(17.6%)和常识推理(16.6%)。46。4%的关系需有多个证据句支撑,其中40.7%的关系事实必须要综合多个句子才来得出。
综上,DoCRED是一个比较能展示篇章级关系抽取能力的基准数据集,也具备一定的难度。
基准设置
DocRED数据集设置了两个基准:人工标注的监督数据集和远程标注的数据集。数据集的收集和基本情况,前面已经介绍,这里不再赘述。
这里重点提一下,作者认为该数据集的两个核心挑战:
- 多句和基于推理的关系抽取。区别于基于句子的关系抽取数据集,关系模式的发现可以起到很大的作用,作者认为DocRED中61.1%的关系抽取依赖于复杂推理
- 计算代价。DocRED作为篇章级关系抽取,平均每篇文章中包含19.5个实体,待预测关系种类为96种。这就使得一些适配于句子级别抽取的算法迁移到篇章级别面临计算代价过大的问题。
此外,尽管数据集给了一个比较庞大的远程标注数据集,但是在DoCRED中,远程标注抽取的关系错误率也大幅度上升。
基准实验
基准实验室迁移了句子级别关系抽取的四个模型,包括CNN,LSTM,双向LSTM的三个模型(仅特征抽取层不同),以及一个上下文感知的模型。
实验的本身其实意义不是特别大,只是一些先驱尝试,这里直接贴几个论文的结论。
四个模型的基本实验结果
与人工标注的对比
支持的证据句子,随机(认为所有出现头尾实体的句子均是支持证据)和模型预测
最后作者认为针对DocRED的算法研究后续可以研究的几个点:
(1) 探索明确考虑推理的模型;
(2) 设计更具表现力的模型架构,用于收集和综合句间信息;
(3) 利用远程监督数据来提高文档级关系抽取的性能。
总结
DocRED 这个数据集是清华大学NLP实验室,为了将关系抽取系统从句子级别推进到文档级开源的一个有影响力的数据集。 该数据集具有数据规模大、需要在多个句子上进行阅读和推理的特点,并提供了远程监督数据来促进弱监督文档级关系抽取的开发。实验表明,人类表现明显优于关系抽取基准模型,这表明该领域还有充足的改进空间