English Machine Reading Comprehension Datasets: A Survey–阅读笔记
文章目录
1 主要贡献
调查主要采用结构化的形式,为每个数据集提供以下信息:大小、数据源、创建方法、人类性能级别、数据集是否已“解决”、排行榜的可用性、最常见的第一个问题令牌,以及数据集是否公开。还根据每个数据集的问答类型对其进行分类。
包含每个数据集的统计信息,如实例数量、平均问题/通道/答案长度、词汇表大小和文本域,可以用来估计训练MRC系统的计算需求。
2 条件
将问题分为三类:陈述、查询和问题。答案分为以下类别:完型、多项选择、布尔、提取、生成。
各问题的QA类别:
2.1 答案类型
完型
在完型的数据集中,答案是问题上下文的缺失部分,它们组合在一起,形成一个语法正确的句子。
扩展:考虑更广泛的完型任务,因为它不仅插入单词任务,而且句子完成。如例子2.
例:食谱数据集ReciteQA (Yagcioglu et al., 2018), 医疗类型数据集 CliCR (ˇSuster and Daelemans,2018).
单、多选
对于多重选择数据集,问题没有缺失的单词。
例: MCTest (Richardson et al.,2013).
布尔值判断
答案除了是、否,还有第三种类型: “Cannot be answered”* or “Maybe”
例:PubMedQuestions (Jin et al., 2019).
抽取式答案(跨度提取)
答案是该段落的一个子字符串。换句话说,任务是确定原始段落中字符的开始和结束索引。这两个索引之间的字符串是答案。
例: SQuAD (Rajpurkar et al., 2016).
生成式或自由问答
答案必须根据段落中提供的信息来生成。虽然答案可能在文本中,但没有提供文章索引连接。
例:NarrativeQA (Koˇcisk´y et al., 2018).
2.2 问题类型
声明
这个问题是一个肯定的句子,用于完型。
例:SearchQA (Dunn et al., 2017).
P:sheep在澳大利亚英语词叫jumbuck)
Q:澳大利亚人把___动物称为jumbuck还是Monkey?
A:答案是:Sheep
问题
通常的问题被分为仿真陈述:(Who? Where? What?When?)、非仿真陈述(How? Why?),和Yes/No.
查询
提出这个问题是为了获得一个特定对象的一个特定性质。它类似于知识图查询,并且,为了被回答,段落的一部分可能涉及作为知识图的额外来源,或者数据集可能是使用知识图创建的。
例:WikiReading (Hewlett et al., 2016)
将具有不止一种类型的问题的数据集放入一个单独的混合类别中。
2.3 文章类型
文章可以采用一个单文档或多文档的形式。它们可以根据回答问题所需的推理类型进行分类:
简单的证据,在段落中清楚地呈现了问题的答案,例如。(3)和(6),
多跳推理与问题,要求结合不同段落或不同文档部分的一些事实以获得答案,例如。来自HotpotQA的(10)(杨等人,2018):
以及需要常识或常识推理的扩展推理,例如。来自Cosmos dataset(Huang等人,2019)的(11):
2.4 对话式MRC
将会话或对话框数据集放在一个单独的类别中,因为它有一个段落、问题和答案的独特组合。这一段有一个特定的背景,然后通过一些后续的问题和答案来完成。完整的段落以对话的形式呈现,问题应该根据之前的话语来回答,如ShARC(赛伊迪等人,2018)(12),其中场景是每个对话框段落唯一的的额外部分。前面提出的问题和它的答案成为下面一个问题的段落的一部分。
背景文:Eligibility. You’ll be able to claim the new State Pension if you’re: a man born on or after 6 April 1951, a woman born on or after 6 April 1953.
场景:I’m female and I was born in 1966
问题:Am I able to claim the new State Pension?
对话:(1)Are you a man born on or after 6 April 1951? – No
(2)Are you a woman born on or after 6 April 1953? – Yes
答案:Yes
3 数据集
3.1 数据集来源:
相当大一部分数据集(54个数据集中的21个)使用维基百科作为通道来源。
新闻 (CNN/DailyMail, WhoDidWhat, NewsQA,CoQA, MultiRC, ReCoRD, QuAIL)
书籍:Project Gutenberg and BookCorpus(ChildrenBookTest, BookTest, LAMBADA, partly CoQA, Shmoop, SciQ)
电影脚本(MovieQA, WikiMovies, DuoRC)
以上组合(MultiRC and NarrativeQA)
医学领域(CliCR, PubMedQuestions, MedQA,emrQA, QAngaroo MedHop)
外语考试( RACE,RACE-C, and DREAM)
研究生管理入学考试(GMAT)
法学院入学考试(LSAT)
医学考试(MedQA)
the Spinn3r Blog的个人叙述(MCScript, MCScript2.0, CosmosQA)
推特(TweetQA)
亚马逊用户评论和问题(AmazonQA, AmazonYesNo),
烹饪食谱(RecipeQA).
3.2 数据集的创建
1.自动生成方法:基于规则的方法已经被用来通过生成句子来自动获得MRC任务的问题和段落。或者,在完型类型问题的情况下,从上下文中排出一个单词。
2.超过一半的数据集(54个数据集中的33个)是使用众包工作者创建的。
(1).众包工作者可以访问该文章,并必须根据其制定问题。
例:MovieQA, ShaRC, SQuAD, and SQuAD2.0
(2).找到一个包含给定问题答案的段落,问题来自现有的资源,如琐事和小测试问题:TriviaQA, Quasar-T, SearchQA,或者使用谷歌和必应的网络搜索查询和结果作为问题和段落的来源:BoolQ, NaturalQuestions, MS MARCO。
3为了避免段落和问题之间的单词重复,一些数据集使用了关于相同主题的不同文本作为段落和问题的来源。
DuoRC从Wikipedia和IMDB中获取同一部电影描述,一种描述用作段落,而另一种描述用于创建问题。
NewsQA只使用一个标题和一个简短的新闻文章摘要作为问题的来源,而整个文本成为段落。同样,在NarrativeQA中,只有故事的摘要被用于创建问题。
MCScript and MCScript 2.0,问题和段落是由不同的众包工作者创建的,并给予相同的脚本。
3.3 数量分析
大多数数据集包含100k个问题,这使它们适合训练和/或微调深度学习模型。
少于10K的数据集:MultiRC (9.9k), Shmoop(7.2k), ReClor (6.1k), QAngaroo MedHop (2.5k),
WikiQA (2k).
但处理所有数据集的提取问题、段落和答案列表,包括候选答案的方法相同:使用 spaCy标记器。
spaCy标记器:
使用 spaCy提取语言特征,比如说词性标签,语义依赖标签,命名实体,定制tokenizer并与基于规则的matcher一起工作。
处理原始文本是很困难的:大多数单词都是很少见的,而对于有些看起来完全不同的单词来说,它们的意思可能是一样的。相同的词在不同的顺序可以意味着完全不同的东西。在很多语言中将文本分割成类单词单元都是困难的。虽然从原始字符开始解决一些问题是可能的,但是最好使用语言知识来添加有用的信息。这正是spaCy的设计目的:您输入原始文本,然后返回一个Doc对象,它带有各种注释。
3.3.1文章a、问题b、答案长度c
大多数数据集的文章长度低于1500个token,中位数为329个token,但由于7个异常值,平均数字标记为1250(图)。
一些数据集(MS MARCO,SearchQA, AmazonYesNo, AmazonQA, MedQA)有一个文档集合,但另一些只包含几句话。一个问题中的token数量主要在5个到20个之间
ChildrenBookTest and WhoDidWhat平均每个问题有超过30个token,而WikiReading, QAngaroo MedHop,and WikiHope平均只有2-3.5个token。4(b))。大多数数据集每个答案包含的标记少于8个token,平均每个答案为3.5个token。NQ是一个突出值,平均每个答案12都有164个token。
3.3.2 单词大小d
问题数量与其词汇量大小之间存在适度的相关性。
WikiReading的问题最多,词汇最丰富。
bAbI是一个合成数据集,有4万个问题,但在其词汇表中只有152个。
3.3.3 语言检测
对于维基百科数据集(Hot-PotQA,QAngoroo WikiHop),大约70-75%的单词是命名实体;10-12%是从其他语言借用的特定术语,如植物、动物的名称等;另外8%-10%是外来词;大约1.5-3%是拼错的单词和标记化错误。
对于用户生成的数据集, AmazonQA,67%是标记化和拼写错误。例如,
当数据集的词汇表对在噪声较少的文本上训练的预先训练的语言模型进行微调时,数据集的词汇表是有用的。
3.3.4 问题的第一个词汇
除完型类问题外,最受欢迎的第一个词是什么:
22%的问题分析和WikiQA, WikiMovies, MCTest, CosmosQA, DREAM中超过一半的问题从What开始。
ReClor的大多数问题(56.5%)都以***which***开始,
而RACE有23.1%。DROP主要关注how much/many, how old(60.4%)。
DuoRC39.5%为***who/whose*** 。
**Why, When, and Where**开头的问题只在
CosmosQA(34.2%)【Why】、
MCScript2 (27.9%)和TyDi (20.5%)【When】、
bAbI (36.9%)【Where】。
3.4 人类表现
与人类表现依然差距很大的数据集:CliCR (33.9 vs.53.7), RecipeQA (29.07 vs 73.63), ShaRC (78.3 vs93.9) and HotpotQA (82.20 vs 96.37)。
MedQA的最高精度只有75.3%。
**对于比较系统的质疑:**MRC系统需要能够回答的问题并不一定是人们发现很难回答的问题。
4 结论
建议为更复杂的任务创建数据集,根据不同的问题可能解释,以不同的方式回答问题,或确定是否给出了矛盾的信息,即:类似于对话框数据集,如ShARC,但在非对话框场景中。
数据集总结表