Machine Reading数据集介绍，官网编号LDC2019T14、LDC2020T04

2401_82807541

已于 2024-07-23 23:29:14 修改

阅读量354

点赞数 5

文章标签：深度学习机器学习语音识别 python 人工智能 nlp

于 2024-07-23 23:25:43 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/2401_82807541/article/details/140648770

版权

Machine Reading数据集是用于开发和评估机器阅读理解（Machine Reading Comprehension，MRC）系统的重要资源。MRC任务旨在使机器能够理解给定的文本并回答相关问题。以下是一些广泛使用的MRC数据集的详细介绍：

SQuAD（Stanford Question Answering Dataset）

特点：
- 由斯坦福大学发布。
- 基于维基百科文章，包含大量的问答对。
- 问题可以是事实性或推理性的问题。
- 答案通常是段落中的一个子字符串。
- SQuAD 2.0版还包括一些无答案的问题，以提高模型的鲁棒性。
应用：
- 用于训练和评估需要从给定文本中抽取答案的MRC模型。

MS MARCO（Microsoft Machine Reading Comprehension Dataset）

特点：
- 由微软发布。
- 包含真实用户在Bing搜索引擎中提出的问题及其答案。
- 答案可能是句子或段落中的多个子字符串，或者是人工总结的答案。
应用：
- 用于训练和评估开放域问答系统。

TriviaQA

特点：
- 由华盛顿大学和阿伦人工智能研究所发布。
- 从在线问答网站收集的问题和答案，以及与问题相关的网页内容。
- 问题复杂，答案需要在长文档中定位。
应用：
- 用于训练和评估处理长文本和复杂问题的MRC模型。

RACE（ReAding Comprehension from Examinations）

特点：
- 由复旦大学发布。
- 基于中国中学生英语考试的阅读理解部分。
- 包含选择题，每个问题有四个选项，需要推理和理解能力。
应用：
- 用于训练和评估需要推理和深度理解的MRC模型。

CoQA（Conversational Question Answering Dataset）

特点：
- 由斯坦福大学发布。
- 包含对话式问答，问题和答案基于给定文本的对话历史。
- 答案可以是简短的句子或段落中的子字符串。
应用：
- 用于训练和评估对话式阅读理解模型，特别是需要考虑对话上下文的系统。

HotpotQA

特点：
- 由亚马逊和卡内基梅隆大学发布。
- 包含复杂的问题，需要从多个文档中提取信息来回答。
- 提供支持答案的句子和段落，促进多跳推理。
应用：
- 用于训练和评估多跳推理和跨文档信息提取的MRC模型。

Natural Questions (NQ)

特点：
- 由谷歌发布。
- 包含来自谷歌搜索引擎的真实问题。
- 包括长短答案，其中长答案是一个段落，短答案通常是段落中的一个子字符串或一个简短的句子。
应用：
- 用于训练和评估能够处理真实世界问题的MRC模型。

DuReader

特点：
- 由百度发布。
- 基于中文数据，包含真实用户提出的问题。
- 数据来源包括百度搜索和百度知道等，涵盖广泛的主题。
应用：
- 用于训练和评估中文MRC模型。

LDC语料小助手https://mp.weixin.qq.com/s/8GgZFh9XAr7FYwivQ_ajRg

关注

5
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
Machine Reading数据集介绍，官网编号LDC2019T14、LDC2020T04

Machine Reading数据集是用于开发和评估机器阅读理解（Machine Reading Comprehension，MRC）系统的重要资源。MRC任务旨在使机器能够理解给定的文本并回答相关问题。
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。