Machine Reading数据集介绍,官网编号LDC2019T14、LDC2020T04

Machine Reading数据集是用于开发和评估机器阅读理解(Machine Reading Comprehension,MRC)系统的重要资源。MRC任务旨在使机器能够理解给定的文本并回答相关问题。以下是一些广泛使用的MRC数据集的详细介绍:

SQuAD(Stanford Question Answering Dataset)

  • 特点

    • 由斯坦福大学发布。

    • 基于维基百科文章,包含大量的问答对。

    • 问题可以是事实性或推理性的问题。

    • 答案通常是段落中的一个子字符串。

    • SQuAD 2.0版还包括一些无答案的问题,以提高模型的鲁棒性。

  • 应用

    • 用于训练和评估需要从给定文本中抽取答案的MRC模型。

MS MARCO(Microsoft Machine Reading Comprehension Dataset)

  • 特点

    • 由微软发布。

    • 包含真实用户在Bing搜索引擎中提出的问题及其答案。

    • 答案可能是句子或段落中的多个子字符串,或者是人工总结的答案。

  • 应用

    • 用于训练和评估开放域问答系统。

TriviaQA

  • 特点

    • 由华盛顿大学和阿伦人工智能研究所发布。

    • 从在线问答网站收集的问题和答案,以及与问题相关的网页内容。

    • 问题复杂,答案需要在长文档中定位。

  • 应用

    • 用于训练和评估处理长文本和复杂问题的MRC模型。

RACE(ReAding Comprehension from Examinations)

  • 特点

    • 由复旦大学发布。

    • 基于中国中学生英语考试的阅读理解部分。

    • 包含选择题,每个问题有四个选项,需要推理和理解能力。

  • 应用

    • 用于训练和评估需要推理和深度理解的MRC模型。

CoQA(Conversational Question Answering Dataset)

  • 特点

    • 由斯坦福大学发布。

    • 包含对话式问答,问题和答案基于给定文本的对话历史。

    • 答案可以是简短的句子或段落中的子字符串。

  • 应用

    • 用于训练和评估对话式阅读理解模型,特别是需要考虑对话上下文的系统。

HotpotQA

  • 特点

    • 由亚马逊和卡内基梅隆大学发布。

    • 包含复杂的问题,需要从多个文档中提取信息来回答。

    • 提供支持答案的句子和段落,促进多跳推理。

  • 应用

    • 用于训练和评估多跳推理和跨文档信息提取的MRC模型。

Natural Questions (NQ)

  • 特点

    • 由谷歌发布。

    • 包含来自谷歌搜索引擎的真实问题。

    • 包括长短答案,其中长答案是一个段落,短答案通常是段落中的一个子字符串或一个简短的句子。

  • 应用

    • 用于训练和评估能够处理真实世界问题的MRC模型。

DuReader

  • 特点

    • 由百度发布。

    • 基于中文数据,包含真实用户提出的问题。

    • 数据来源包括百度搜索和百度知道等,涵盖广泛的主题。

  • 应用

    • 用于训练和评估中文MRC模型。

LDC语料小助手icon-default.png?t=N7T8https://mp.weixin.qq.com/s/8GgZFh9XAr7FYwivQ_ajRg

  • 5
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值