![8708dd78ac9b0be988e70942b6dc9704.png](https://img-blog.csdnimg.cn/img_convert/8708dd78ac9b0be988e70942b6dc9704.png)
![49d437e82deeacf54e3cccdedd162aca.gif](https://img-blog.csdnimg.cn/img_convert/49d437e82deeacf54e3cccdedd162aca.gif)
1. 背景
机器阅读理解,又称阅读理解问答,要求机器阅读并理解人类自然语言文本,在此基础上,解答跟文本信息相关的问题。该任务通常被用来衡量机器自然语言理解能力,可以帮助人类从大量文本中快速聚焦相关信息,降低人工信息获取成本,在文本问答、信息抽取、对话系统等领域具有极强的应用价值。近年来,机器阅读理解受到工业界和学术界越来越广泛的关注,是自然语言处理领域的研究热点之一。
2. 机器阅读理解
机器阅读理解基础任务是根据问题,从非结构化文档中寻找合适的答案,因此,研究人员通常将机器阅读理解形式化为一个关于(文档,问题,答案)三元组的监督学习问题。
在陈丹琦博士学位论文中,根据答案的形式,机器阅读理解任务被细分为完形填空式、多项选择式、片段抽取式和自由作答式四类,这四类任务从易到难,见证了机器阅读理解技术的发展。
2.1 完形填空
完形填空式任务通常将文档中的某个实体用占位符替换,机器阅读残缺段落后寻找正确的词进行补充,使原文完整。这类任务的代表数据集有 CNN & Daily Mail,The Children’s Book Test,CMRC2017等,其中,CNN & Daily Mail 是2015年谷歌发布的首个大型阅读理解数据集,收集了9.3万篇 CNN 和22万篇 Daily Mail 新闻稿,通过实体替换等技术构造百万级别的三元组语料库。
2.2 多项选择
多项选择式数据集为(文档,问题,候选答案集,答案)四元组形式,机器阅读文档和问题后,从候选答案集合中挑选正确的答案,如 MCTest 和 RACE。RACE 数据集源自初高中英语考试试题,包含约2.8万篇文章和10万个专家问题,用于测试机器的理解和推理能力。
2.3 片段抽取
片段抽取式任务要求从原文中抽取一段连续的句子或短语作为问题的答案,相比于完形填空任务填充单一实体,该任务面临更大的搜索空间,因此更具挑战性。
2016年,斯坦福大学发布了SQuAD数据集,该数据集包括500多篇WiKi百科文章以及人工构建的10万多问题。SQuAD数据集一经发布,立刻吸引了科研人员的广泛关注,迅速成为阅读理解任务的基准数据集,具有代表性的模型呈爆发式增长,极大地促进了机器阅读理解领域的发展。2018年,Rajpurkar等人对SQuAD数据集进一步扩增,在原有基础上新增5万多无法回答的对抗性问题,这些问题在原文中都存在似是而非的迷惑性答案,模型不仅仅需要准确应答受原文支持的可回答问题,还需要避免对不可回答问题作出回应。因此,该任务难度更高,更能检验机器的阅读理解能力。
2.4 自由作答
与片段抽取式任务不同