英文数据库综述--阅读笔记

最新推荐文章于 2024-08-15 10:16:02 发布

MRC牛牛小鸭

最新推荐文章于 2024-08-15 10:16:02 发布

阅读量629

点赞数

分类专栏： mrc阅读笔记文章标签：机器学习人工智能深度学习

本文链接：https://blog.csdn.net/qq_39501775/article/details/115711165

版权

mrc阅读笔记专栏收录该内容

2 篇文章 0 订阅

订阅专栏

English Machine Reading Comprehension Datasets: A Survey–阅读笔记

1 主要贡献

调查主要采用结构化的形式，为每个数据集提供以下信息：大小、数据源、创建方法、人类性能级别、数据集是否已“解决”、排行榜的可用性、最常见的第一个问题令牌，以及数据集是否公开。还根据每个数据集的问答类型对其进行分类。

包含每个数据集的统计信息，如实例数量、平均问题/通道/答案长度、词汇表大小和文本域，可以用来估计训练MRC系统的计算需求。

2 条件

将问题分为三类：陈述、查询和问题。答案分为以下类别：完型、多项选择、布尔、提取、生成。

各问题的QA类别：

2.1 答案类型

完型

在完型的数据集中，答案是问题上下文的缺失部分，它们组合在一起，形成一个语法正确的句子。

扩展：考虑更广泛的完型任务，因为它不仅插入单词任务，而且句子完成。如例子2.

例：食谱数据集ReciteQA (Yagcioglu et al., 2018), 医疗类型数据集 CliCR (ˇSuster and Daelemans,2018).
在这里插入图片描述

单、多选

对于多重选择数据集，问题没有缺失的单词。

例： MCTest (Richardson et al.,2013).

在这里插入图片描述

布尔值判断

答案除了是、否，还有第三种类型： “Cannot be answered”* or “Maybe”

例：PubMedQuestions (Jin et al., 2019).

在这里插入图片描述

抽取式答案（跨度提取）

答案是该段落的一个子字符串。换句话说，任务是确定原始段落中字符的开始和结束索引。这两个索引之间的字符串是答案。

例： SQuAD (Rajpurkar et al., 2016).

在这里插入图片描述

生成式或自由问答

答案必须根据段落中提供的信息来生成。虽然答案可能在文本中，但没有提供文章索引连接。

例：NarrativeQA (Koˇcisk´y et al., 2018).

在这里插入图片描述

2.2 问题类型

声明

这个问题是一个肯定的句子，用于完型。

例：SearchQA (Dunn et al., 2017).
在这里插入图片描述

P：sheep在澳大利亚英语词叫jumbuck）
Q：澳大利亚人把___动物称为jumbuck还是Monkey?
A：答案是：Sheep

问题

通常的问题被分为仿真陈述：（Who? Where? What?When?）、非仿真陈述（How? Why?)，和Yes/No.

查询

提出这个问题是为了获得一个特定对象的一个特定性质。它类似于知识图查询，并且，为了被回答，段落的一部分可能涉及作为知识图的额外来源，或者数据集可能是使用知识图创建的。

例：WikiReading (Hewlett et al., 2016)

在这里插入图片描述

将具有不止一种类型的问题的数据集放入一个单独的混合类别中。

2.3 文章类型

文章可以采用一个单文档或多文档的形式。它们可以根据回答问题所需的推理类型进行分类：

简单的证据，在段落中清楚地呈现了问题的答案，例如。（3)和(6），

多跳推理与问题，要求结合不同段落或不同文档部分的一些事实以获得答案，例如。来自HotpotQA的（10）（杨等人，2018）:

以及需要常识或常识推理的扩展推理，例如。来自Cosmos dataset（Huang等人，2019）的（11）：
在这里插入图片描述

2.4 对话式MRC

将会话或对话框数据集放在一个单独的类别中，因为它有一个段落、问题和答案的独特组合。这一段有一个特定的背景，然后通过一些后续的问题和答案来完成。完整的段落以对话的形式呈现，问题应该根据之前的话语来回答，如ShARC(赛伊迪等人，2018）（12)，其中场景是每个对话框段落唯一的的额外部分。前面提出的问题和它的答案成为下面一个问题的段落的一部分。

在这里插入图片描述

背景文：Eligibility. You’ll be able to claim the new State Pension if you’re: a man born on or after 6 April 1951, a woman born on or after 6 April 1953.

场景：I’m female and I was born in 1966

问题：Am I able to claim the new State Pension?

对话：(1)Are you a man born on or after 6 April 1951? – No

(2)Are you a woman born on or after 6 April 1953? – Yes

答案：Yes

3 数据集

3.1 数据集来源：

相当大一部分数据集（54个数据集中的21个）使用维基百科作为通道来源。

新闻 (CNN/DailyMail, WhoDidWhat, NewsQA,CoQA, MultiRC, ReCoRD, QuAIL)

书籍：Project Gutenberg and BookCorpus（ChildrenBookTest, BookTest, LAMBADA, partly CoQA, Shmoop, SciQ）

电影脚本（MovieQA, WikiMovies, DuoRC）

以上组合（MultiRC and NarrativeQA）

医学领域(CliCR, PubMedQuestions, MedQA,emrQA, QAngaroo MedHop）

外语考试（ RACE,RACE-C, and DREAM）

研究生管理入学考试(GMAT)

法学院入学考试(LSAT)

医学考试（MedQA）

the Spinn3r Blog的个人叙述(MCScript, MCScript2.0, CosmosQA)

推特(TweetQA)

亚马逊用户评论和问题(AmazonQA, AmazonYesNo),

烹饪食谱(RecipeQA).

3.2 数据集的创建

1.自动生成方法：基于规则的方法已经被用来通过生成句子来自动获得MRC任务的问题和段落。或者，在完型类型问题的情况下，从上下文中排出一个单词。

2.超过一半的数据集（54个数据集中的33个）是使用众包工作者创建的。

（1）.众包工作者可以访问该文章，并必须根据其制定问题。

例：MovieQA, ShaRC, SQuAD, and SQuAD2.0

（2）.找到一个包含给定问题答案的段落，问题来自现有的资源，如琐事和小测试问题：TriviaQA, Quasar-T, SearchQA，或者使用谷歌和必应的网络搜索查询和结果作为问题和段落的来源：BoolQ, NaturalQuestions, MS MARCO。

3为了避免段落和问题之间的单词重复，一些数据集使用了关于相同主题的不同文本作为段落和问题的来源。

DuoRC从Wikipedia和IMDB中获取同一部电影描述，一种描述用作段落，而另一种描述用于创建问题。

NewsQA只使用一个标题和一个简短的新闻文章摘要作为问题的来源，而整个文本成为段落。同样，在NarrativeQA中，只有故事的摘要被用于创建问题。

MCScript and MCScript 2.0，问题和段落是由不同的众包工作者创建的，并给予相同的脚本。

3.3 数量分析

大多数数据集包含100k个问题，这使它们适合训练和/或微调深度学习模型。

少于10K的数据集：MultiRC (9.9k), Shmoop(7.2k), ReClor (6.1k), QAngaroo MedHop (2.5k),

WikiQA (2k).

但处理所有数据集的提取问题、段落和答案列表，包括候选答案的方法相同：使用 spaCy标记器。

spaCy标记器：

使用 spaCy提取语言特征，比如说词性标签，语义依赖标签，命名实体，定制tokenizer并与基于规则的matcher一起工作。

处理原始文本是很困难的：大多数单词都是很少见的，而对于有些看起来完全不同的单词来说，它们的意思可能是一样的。相同的词在不同的顺序可以意味着完全不同的东西。在很多语言中将文本分割成类单词单元都是困难的。虽然从原始字符开始解决一些问题是可能的，但是最好使用语言知识来添加有用的信息。这正是spaCy的设计目的:您输入原始文本，然后返回一个Doc对象，它带有各种注释。

3.3.1文章a、问题b、答案长度c

在这里插入图片描述

大多数数据集的文章长度低于1500个token，中位数为329个token，但由于7个异常值，平均数字标记为1250（图）。

一些数据集(MS MARCO,SearchQA, AmazonYesNo, AmazonQA, MedQA)有一个文档集合，但另一些只包含几句话。一个问题中的token数量主要在5个到20个之间

ChildrenBookTest and WhoDidWhat平均每个问题有超过30个token，而WikiReading, QAngaroo MedHop,and WikiHope平均只有2-3.5个token。4(b))。大多数数据集每个答案包含的标记少于8个token，平均每个答案为3.5个token。NQ是一个突出值，平均每个答案12都有164个token。