《中国人工智能学会通讯》——7.9 机器阅读理解评测数据集-CSDN博客

7.9 机器阅读理解评测数据集

现阶段，和阅读理解相关的数据集主要有以下五个。

1 . MCTest

微软研究院的研究员 Richardson et al [1] 在2013 年的 EMNLP 上发布了一个数据集。在这个数据集中，所有的文档都是一些叙述性的故事。它考察的推理能力被限定于一个 7 岁儿童可以接受的范围内，包含有许多常识性的推理，这些推理既包含事实性的，也包含非事实性的。这个数据集包含有两部分，一个是 MC160，还有一个是 MC500，分别包含 160 篇和 500 篇文档。由于这个数据集较为接近我们真实的阅读理解场景，因而成为阅读理解相关研究者的首选评测数据集。

2 . bAbi

这个数据集是由 Facebook 人工智能实验室的研究人员提出[2] ，将问答系统中的任务按照回答方法分成了 20 种，比如单支撑句问题、方位问题等。20 个问题的分类和一些常用方法在这些问题上面的结果如图 2 所示。
由于在这个数据集中，所有的问题和背景文档都是依靠规则自动生成的，因而数据量比较大（可以无限大）。但是由于包含的信息太少，主要是用来测试一些推理模型，如 memory Networks 或者神经图灵机。最新的工作[3]已经可以依靠规则系统，将这 20 类问题全部答对。

3 . CNN&Daily Mail

该数据集是 Google Deepmind 的研究人员在NIPS2015上提出的一个数据集[4] ，数据的构造非常巧妙。首先，作者在两个新闻语料上（CNN 和 Daily Mail）分别搜集了 11 万和 21.8 万篇新闻，每篇新闻都有一些总结句（文章标题或者新闻要点），然后作者将其中的每篇新闻看成一个背景文档，把总结句中的实体去掉，再把这个去掉实体的标题当成问题。如图 3 所示。

作者用这种自动的方法构造了一个海量的数据集，在这些问题中答案没有预先给出，但是都可以在原文中得到。这个数据集主要考察哪些答案是实体类型的问题，问题也都是陈述型的问句，因而是一种 cloze（完形填空）型的机器阅读理解任务。

4 . CBTest

这个数据集也是 Facebook 人工智能实验室的研究员在 ICLR2016 上发布的数据[5] ，主要根据儿童读物的文章构建。其中，每篇文章包含一个故事；每个故事采用人工的方式分为很多小部分；每个部分含有 21 句话，前 20 句话是被当成背景文档，第21 句话是问题，需要系统对其中缺少的实体或者名词进行补全。在答案中会事先给出 10 个候选，需要从这 10 个候选中找到正确的一项对空处进行填充。如图 4 所示。类似于 CNN&Daily Mail 数据集，由于这些问题大部分是实体的，所以也是 cloze（完形填空）型的机器阅读理解任务。

5 . 公开评测

除了上述公开数据集之外，Cross LingualEvaluation Forum （CLEF） 1 从 2013 年开始每年举办“Entrance Exams（入学考试）”问答子任务。该评测数据从日本入学考试中选取，每篇文档都伴随有若干问题，每个问题有若干选项。但是由于考试的内容有限，所以数据集非常小。（2015 年时提供的训练集大小只有 19 篇文档、89 个问题。）

综上所述，目前各公开的数据集，由于其考察系统阅读理解能力侧重点的不同，因此所构造的数据集的方式、规模和形式也不尽相同。从已有研究成果来看，大部分方法目前主要侧重于系统对文本深层次的语义理解能力，因此，大部分机器阅读理解方法都集中于在 MCTest 数据集进行评测。在下面的章节中，本文也主要围绕 MCTest 数据集介绍已有的机器阅读理解方法。