【论文分享】ACL 2020 信息抽取与问答系统

引言

在文档中,粗粒度信息和细粒度信息对于不同的任务往往扮演不同的角色,细粒度信息(如词级、句子级表示)抓取了文档的局部信息,是句子级别命名实体识别、序列标注、意图识别等任务的基础;与之对应的,粗粒度信息通过对细粒度信息进行融合,抓取了较高级别(如段落级、文档级甚至语料级)的信息,可以提供局部观察不到的全局信息,辅助进行文档级问答、文档级关系抽取等任务。本文把重点放在粗粒度信息表示,通过三篇文章来介绍其在问答任务、关系抽取任务中的实现途径以及呈现效果。

文章概览

1. 基于图注意网络的多粒度机器阅读理解建模 Document Modeling with Graph Attention Networks for Multi-grained Machine Reading Comprehension

论文地址:https://www.aclweb.org/anthology/2020.acl-main.599/

自然问答(Natural Questions)任务先前的工作往往将长答案和短答案分开单独训练(Kwiatkowski et al., 2019),而作者认为两个任务相辅相成,在训练中可以相互促进,本文通过图注意力机制将不同粒度信息进行融合,并联合训练两个子任务,探究两个子任务间的交互作用。

2. 利用语料库级统计量合理化医疗关系预测 Rationalizing Medical Relation Prediction from Corpus-level Statistics

论文地址:https://www.aclweb.org/anthology/2020.acl-main.719/

医疗领域的关系抽取有其特殊性,与绝大部分基于源文本的关系抽取不同,本文基于语料级统计量即医疗实体的全局共现图(cooccurrence graph)进行医疗关系预测,并提供了合理化的解释。

3. SciREX:用于文档级信息提取的挑战性数据集 SciREX: A Challenge Dataset for Document-Level Information Extraction

论文地址:https://www.aclweb.org/anthology/2020.acl-main.670/

当前文档级别的信息抽取工作还比较有限,大多集中于句子级或段落级(Zhang et al., 2017; Luan et al., 2018),很大程度上是因为缺乏相关数据集。文章旨在构建一个用于集命名实体识别、重点对象识别和关系抽取于一体的文档级信息抽取任务的数据集,应用领域选取为机器学习会议文献(ML conference)。

论文细节

1

任务描述

自然问答(Natural Questions):需要从文档中提取与给定问题的两个不同粒度的答案——长答案(通常为一段话)和短答案(长答案中的一个或多个实体)。

动机

以往工作采用pipeline框架,将长答案提取和短答案提取当作两个相互独立的子任务单独训练,即先训练出长答案,接着在长答案中提取短答案。而从直觉上来说,两个答案应该具有一致性,因此,在训练过程中两者被认为应当表现出相互促进的效果。如何将两个任务进行联合训练呢?本文采用图注意力网络来实现这一目标。

模型

正如文章题目所说的,本文的核心就是图编码模块,接下来我们将重点剖析这一模块:

  1. 初始化:将不同粒度的文本表示看作树状结构(子结点与所有祖辈结点相连),自上而下分别是“文档(文档片段)——段落——句子——词”,图编码模块接收前序BERT输出的词级表示,更粗粒度的文本表示通过对子结点和相对位置表示进行平均来初始化。

  2. 自注意力层:实现同粒度结点间的信息交互。

  3. 图融合层:采用改进的多头注意力机制(在经典的注意力机制中加入不同结点间相对位置的表示),将该层置于不同粒度的自注意力层之后,在训练过程中能实现不同粒度结点间的信息融合。

  4. 前馈层:将不同粒度的文本表示拼接,作为解码模块的输入。

实验

  1. 与基线模型对比结果:相较于先前的pipeline模型,本文所提出的模型在长短答案的提取上,都有更高的精确率和召回率。

  2. 消融实验:

    (1)可见删去任何模块,在两个子任务上的F1值都同时减小,表示在训练过程中,两个子任务确实是相互影响的。

    (2)删去图编码模块后,F1值的减小幅度是最大的,也就是说文章中最核心的图编码模块确实能有效提高任务的完成度和准确性。

    2

  1. 动机
  • 关系抽取是很关键的任务,对下游的任务比如QA、对话系统等很重要。

  • 模型的可解释性相当重要尤其是在医疗领域,我们希望对所预测的医疗实体对关系提供科学合理的解释。

  • 当前在关系抽取任务中,大部分工作都是通过源文本建立的深度模型,利用注意力机制提供局部的可解释性,缺乏比较整体全局的理解和解释。

  • 在医学领域,文本中包含了太多患者隐私,共现图将这些信息删去了,利用共现图建模可以有效保护患者的隐私。

  • 不同于开放领域,医疗实体的关系很难通过局部信息抽取。

模型

共现图利用语料库中所有的医疗实体构建,若两个实体同时出现在同一窗口(一句、一段文本,或者同一天、同一周的医疗记录等),则两个实体(在共现图中表现为结点)之间存在一条边,边的权重表示共现的次数。直觉上来说,边的权重越大,我们认为两个实体存在的关系越紧密。

图2和图3展示了模型的主要框架,模型很大程度上受到认知论(cognitive theory)的启发,认知论认为记忆检索包含两个部分,回忆(recall)和识别(recognition)。

  1. recall:分别找到与头结点尾结点(关心的医疗实体对)关系最紧密(以条件概率的形式体现)的top K个结点,条件概率的学习实际上也是图中结点表示的学习。

  2. recognition:寻找/构建回忆结点间的潜在关系,实现头结点和尾结点的路径连通。图中红色结点为头结点、尾结点,蓝色结点为回忆结点,红色虚线箭头表示关系构建,例如图中的“咖啡因 可能可以治疗 偏头痛”这一关系最后将有助于我们判断阿司匹林和头痛之间的关系。

那么如何构建这一潜在关系呢?主要有两种方法,作者将其总结为“封闭世界假设(CWA)”和“开放世界假设(OWA)”,CWA通过接入知识库(KB),通过在知识库中检索实体对来构建潜在关系,显而易见的,这种方法构建的关系是比较科学可靠的,但其缺陷也很明显,因为知识库中存在的关系对并不完备,具有稀疏性,对于不在知识库中的实体对我们无法给出关系预测。为克服这一缺陷,提出了OWA来构建潜在关系,一句话来说,OWA通过表示学习来实现潜在关系的构建。

由关系得分(结点i,j属于关系k的得分)学习假设表示(结点i,j的综合关系表示),再通过假设表示学习加权假设表示(头结点、尾结点的综合关系表示),最后将加权假设表示作为分类器的输入特征。模型充分训练后,在推断阶段,通过反向寻找最高的K个三元组,为头尾结点的关系预测提供可解释的联通路径。

实验

  • 预测效果:模型在性能方面优于传统的方法。

  • 案例分析:

发现1:OWA生成的关系假设不完全有临床医学基础,不一定是正确的,这是以后需要解决的问题。

发现2:会发现很多不同的药物都能治疗同一种疾病,而某一种关系是目前未知的,这种未知的关系或许可以指导新的医学发现。

3

任务描述

文档级信息抽取:从长文本中抽取关系对(可以是二元、三元、四元关系),可以分解为以下几个子任务:实体识别(方法,任务,评价指标,数据集),重点实体识别(出现在模型评估里的实体),共指识别(一种实体可能有多种表示,如缩写等),关系抽取(抽取n元关系)。

动机

当前关系抽取的工作大多还是局限在句子或者段落级别,因此文档级关系的数据也比较少,作者希望构建一个文档级关系抽取的数据集,任务目标是提取四元关系组(提出了一个新任务)。

数据集构建

采用半自动标注的模式(自动标注+人工修正)

  • 现有的知识库Paper with Code (PwC)总结了1170篇文章的五元关系组(Dataset, Metric, Method, Task, Score),可以提供远程监督信号(“远程”是因为我们知道文章存在这样的五元关系,但我们不知道具体在文章的什么地方提及)。

  • 利用BERT+CRF框架在SciERC(Luan et al., 2018)数据集上训练序列标注模型,并利用充分训练的模型对PwC中的每篇paper进行标注(实体识别)。

  • 对于识别出来的实体(mention  ),分别计算与PwC中各实体(entity  )的Jaccard相似度,相似度超过某一阈值则认为 .

  • 最后,领域专家对标注结果进行一定的修正。

模型

整个任务可以通过上图中自下而上的几个模块共同实现:

  1. 文档表示:通过BERT对文档片段进行编码,将编码结果通过一层双向LSTM捕捉跨节依赖。

  2. 实体识别:采用CRF解码,实现序列标注,此时识别出的实体我们暂时称为mention。

  3. 实体表示学习:对实体 ,将其嵌入表示为。实体表示学习是后续子任务重点实体识别和共指识别的基础。

  4. 重点实体(mention)识别:二分类问题,通过前馈层实现。

  5. 共指识别:实际上是一个聚类问题,利用学得的实体表示,计算两两的共指得分(相似度),通过聚集层次聚类(agglomerative hierarchical clustering)实现对mention的聚类,得到的每一类实际上表示同一实体。

  6. 重点实体(entity)识别

  7. 关系抽取:对N元关系组进行表示学习,抽象成二分类任务(存在/不存在)。

实验

  • 在SciERC数据集上,实体识别任务中,本文模型的结果不如DYGIE++,作者认为是因为SciERC数据集中的实体有相互重叠的现象,而这是基于CRF的模型没法处理的。

  • 在共指识别上,得到的结果更不理想,作者认为DYGIE++为将来在SciREX数据集上提升共指识别的性能提供了一种端到端的途径。

  • 假如采用gold聚类结果(保留了与真实类别有重叠的类)代替预测结果作为后续任务的输入,可以发现后续任务的精确率和召回率都有了显著提高。这也侧面反映了累计误差对端到端模型的性能影响巨大,同时重点类识别(salient entity cluster)是该模型的一大痛点。

  • 由于是提出的新任务,可以说模型的各方面性能还不是很理想。

参考文献

  1. Zheng B, Wen H, Liang Y, et al. Document Modeling with Graph Attention Networks for Multi-grained Machine Reading Comprehension[J]. arXiv preprint arXiv:2005.05806, 2020.

  2. Wang Z, Lee J, Lin S, et al. Rationalizing Medical Relation Prediction from Corpus-level Statistics[J]. arXiv preprint arXiv:2005.00889, 2020.

  3. Jain S, van Zuylen M, Hajishirzi H, et al. SciREX: A Challenge Dataset for Document-Level Information Extraction[J]. arXiv preprint arXiv:2005.00512, 2020.

  4. Kwiatkowski T, Palomaki J, Redfield O, et al. Natural questions: a benchmark for question answering research[J]. Transactions of the Association for Computational Linguistics, 2019, 7: 453-466.

  5. Zhang Y, Zhong V, Chen D, et al. Position-aware attention and supervised data improve slot filling[C]//Proceedings of the 2017 Conference on Empirical Methods in Natural Language Processing. 2017: 35-45.

  6. Luan Y, He L, Ostendorf M, et al. Multi-task identification of entities, relations, and coreference for scientific knowledge graph construction[J]. arXiv preprint arXiv:1808.09602, 2018.

供稿丨李志伟 编辑丨袁     建 责编丨何啸风 来自 | 复旦DISC

供稿人:李志伟丨研究生一年级丨研究方向:知识抽取相关丨邮箱:20210980078@fudan.edu.cn

说个正事哈

由于微信平台算法改版,公号内容将不再以时间排序展示,如果大家想第一时间看到我们的推送,强烈建议星标我们和给我们多点点【在看】。星标具体步骤为:

(1)点击页面最上方深度学习自然语言处理”,进入公众号主页。

(2)点击右上角的小点点,在弹出页面点击“设为星标”,就可以啦。

感谢支持,比心

投稿或交流学习,备注:昵称-学校(公司)-方向,进入DL&NLP交流群。

方向有很多:机器学习、深度学习,python,情感分析、意见挖掘、句法分析、机器翻译、人机对话、知识图谱、语音识别等。

记得备注呦

推荐两个专辑给大家:

专辑 | 李宏毅人类语言处理2020笔记

专辑 | NLP论文解读

专辑 | 情感分析


整理不易,还望给个在看!
  • 1
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值