Neural Machine Reading Comprehension: Methods and Trends阅读(19年论文)

关键信息

摘要

(1)典型的 MRC 任务:它们的定义、差异和代表性数据集;
(2)神经 MRC 的一般架构:主要模块和流行方法
(3) 新趋势:神经 MRC 的一些新兴领域以及相应的挑战。 遗留的未解决问题,设想未来可能会发生什么

介绍

机器阅读理解 (MRC) 是一项测试机器理解自然语言程度的任务。可以通过要求机器根据给定的上下文回答问题来理解自然语言,这有可能彻底改变人类和机器交互的方式,带有MRC技术的搜索引擎可以直接使用自然语言将正确的答案返回,而不是一系列相关网页的用户提出的问题。此外,配备了MRC系统的智能助手可以阅读帮助文档,并为用户提供高质量的咨询服务。总而言之,MRC是一项有前途的任务,可以使信息检索更有效。
在这里插入图片描述
如该图所示,总体上,从2015年到2018年底,文章的数量增加了。此外,随着时间的流逝,MRC任务的类型正在变得越来越多样化。所有这些表明神经MRC正在迅速发展,并且已成为学术界(斯坦福大学,卡内基·梅隆等)和行业(Google,Facebook,Microsoft等)的研究重点
We selected from the search results only papers published on related high-profile conferences such as ACL, EMNLP, NAACL, ICLR, AAAI, IJCAI and CoNLL,

将常见的MRC任务分为四种类型
cloze tests, multiple choice,span extraction, and free answering
完形填空测试 多项选择 跨度抽取 自由应答

我们介绍神经MRC系统的一般体系结构,该系统由四个模块组成

embeddings, feature extraction, context-question interaction and answer prediction

在这里插入图片描述

任务定义

机器阅读理解(MRC)是文本问题回答(QA)的基本任务
MRC的目的是从给定上下文中提取正确的答案,甚至基于上下文产生更复杂的答案。
形式化定义
在这里插入图片描述

Cloze Tests

在这里插入图片描述

Multiple Choice

在这里插入图片描述

Span Extraction

尽管完形填空测试和多项选择可以衡量机器在某种程度上理解自然语言的能力,但这些任务存在局限性。更具体地说,单词或实体是4不足以回答问题。
在这里插入图片描述

Free Answering

与完形填空和多项选择相比,跨度提取任务在允许机器提供更灵活的答案方面取得了长足的进步,但这还不够,因为给出的答案仅限于上下文的跨度仍然是不现实的。为了回答问题,机器需要对文本的多个部分进行推理并总结证据。在这四个任务中,Free Answering是最复杂的,因为其答案表没有限制,并且更适合实际应用程序场景。
与其他任务相反,Free Answering减少了一些限制,并更多地关注使用自由形式的自然语言更好地回答问题。
在这里插入图片描述

比较不同任务

Construction:该维度可以衡量是否容易为任务构造数据集。越容易,得分越高
Understanding:该维度评估了任务可以测试机器理解能力的能力。如果任务需要更多的理解和推理,则分数更高
Flexibility:答案表的灵活性可以衡量任务的质量。当答案更灵活时,灵活性得分更高
Evaluation: 评估是MRC任务的必要组成部分。是否可以轻松评估任务也决定了其质量。在此方面易于评估的任务获得很高的分数
Application: 一项好的任务应该与现实世界应用程序接近。因此,如果可以轻松地将任务应用于现实世界,则该维度的分数很高
在这里插入图片描述

基于深度学习的方法

逐渐成为研究界的主流
一般架构
在这里插入图片描述

Embeddings

因为机器无法直接理解自然语言,在MRC系统的初始,嵌入模块必不可少将输入单词变为固定长度的向量。将上下文和问题作为输入,该模块通过各种方法输出上下文和问题嵌入。经典的单词表示方法one-hot 和Word2Vec ,有时和其他语言特征结合,例如词性标注(part-of-speech),命名实体,问题分类,通常用来表示单词中的语义和句法信息。预训练方法在编码上下文信息中有良好的前景。

Feature Extraction

嵌入层之后,上下文编码和问题编码表示被喂入特征抽取模块,为了更好理解上下文和问题该模块的目的是提取更多的上下文信息。经典的深度神经网络模型RNN,CNN被用来进一步挖掘上下文语境特征,从上下文和问题嵌入中。

Context-Question Interaction

上下文和问题的相关性在预测答案的时候扮演非常重要的角色,有了这些信息,机器能够找到上下文中更重要的部分去回答问题。为了达到这个目的,无向的或者双向的注意力机制被广泛应用到这个模块加强上下文与问题相关的部分。为了充分提取它们之间的相关关系,它们之间的交互有时会涉及到多跳( multiple hops),模拟人类理解重读的过程。

Answer Prediction

答案预测模块是MRC系统的最后组件,根据先前模块累积的所有信息输出最终的答案。因为MRC可以根据答案形式被分类,这个模块与不同的任务高度相关。对于完形填空测试,模块的输出是原始上下文中的一个单词或者实体,然而多项选择任务需要选择正确的答案,从候选答案中。在跨度抽取任务中( span extractions)这个模块提取给出上下文的子序列作为答案。针对自由应答任务( free answering task)一些生成技术被使用在该模块,因为它几乎没有答案形式的限制。

经典深度学习方法

相比较于传统基于规则和机器学习方法,深度学习的技术在提取上下文信息方面展现了它的优越性,这对MRC任务来说是非常重要的。
这一节介绍在不同的MRC系统模块使用的多样的深度学习方法,一些技巧提升MRC的表现。
见原文图

附加技巧

强化学习、答案排序(Answer Ranker)、句子选择(Sentence Selector)

强化学习

大部分MRC模型仅仅使用最大似然评估训练过程,可是优化目标和评估指标存在脱节。因此,候选答案完全匹配真实或者与真实值单词重叠但是位置与标签不一样则会被忽略。另外,当答案跨度太长或者有模糊边界,模型同样会错误抽取答案。MRC评价指标exact match(EM)和F1 是不一样的,因此研究者针对训练过程引进强化学习。
增强学习也可以用于确定是否停止交互过程

答案排序(Answer Ranker)

为了验证预测的答案是否正确,一些研究人员介绍了答案排名模块。排名者的共同过程是它提取了一些候选答案,而得分最高的答案是正确的答案
使用排名模块,可以在某种程度上提高答案预测的准确性。这些方法还激发了一些研究人员去探测一些无法回答的问题。

句子选择器(Sentence Selector)

在实践中,如果给出了MRC模型的长文档,则需要很多时间来理解整个上下文来回答问题。但是,找到与问题最相关的句子是加速训练过程的一种可能方法。
Min等人提出一个句子选择器,以找到回答问题所需的最小句子集。句子选择器的体系结构是顺序到序列,其中包含一个编码器来计算句子和问题编码和解码器,以通过测量句子和问题之间的相似性来计算每个句子的分数,如果分数高于预定的阈值,则选择将句子送入MRC系统。这样,根据不同的问题,选定的句子的数量是动态的,与没有选句器的系统相比,带有选句器的 MRC 系统能够减少训练和推理时间,具有同等或更好的性能。

数据集和评价指标

大规模MRC数据集的发布使得可以训练深神经模型,而评估指标可以评估MRC模型的性能,两者在MRC领域中都起着重要作用。在本节中,我们根据不同的任务描述代表性数据集,然后介绍评估指标

Datasets

CNN & Daily Mail 、SQuAD 、MS MARCO

Cloze Tests Datasets
  • CNN & Daily Mai
  • CBT
  • LAMBADA
  • Who-did-What
  • CLOTH
  • CliCR
Multiple-Choice Datasets
  • MCTes
  • RACE
Span Extraction Datasets
  • SQuAD
  • NewsQA
  • TriviaQA
  • DuoRC
Free Answering Datasets
  • bAbI
  • MS MARCO
  • SearchQA
  • NarrativeQA
  • DuReader

Evaluation Metrics(评价指标)

  • Accuracy
  • F1 Score
  • ROUGE-L
  • BLEU

新趋势

基于知识的机器阅读理解(Knowledge-Based Machine Reading Comprehension)

引入外部知识

机器阅读理解有无法回答的问题(Machine Reading Comprehension with Unanswerable Questions)
Multi-Passage Machine Reading Comprehension
Conversational Machine Reading Comprehension(对话阅读理解)

未解决的问题

基于对本文引用的文献的分析,我们观察到神经MRC仍未解决一些开放问题,其中一些问题也可能在重新研究的研究中进行了讨论,例如机器推理和开放式质量标学。神经MRC中最重要的问题是,机器并未真正理解给定的文本,因为现有模型主要依靠语义匹配来回答问题。Kaushik和Lipton [34]进行的实验表明,当仅提供段落或问题时,某些MRC模型表现出色。尽管研究人员已经在神经MRC方面取得了长足的进步,但在以下方面,MRC和人类理解之间仍然存在巨大差距。

  • Limitation of Given Context
  • Robustness of MRC Systems
  • Incorporation of External Knowledge
  • Lack of Inference Ability
  • Difficulty in Interpretation
  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值