数据集 MS MARCO

MS MARCO(Microsoft Machine Reading Comprehension)是微软推出的系列大规模自然语言处理数据集,旨在推动机器阅读理解、问答系统和信息检索领域的研究。以下是该数据集的核心信息:

1. 基础版本(2016年发布)

  • 目标:模拟真实场景的问答任务,促进机器理解复杂问题并生成答案。
  • 数据构成
    • 包含约10万个匿名用户查询(来自Bing搜索引擎和Cortana虚拟助手)。
    • 答案基于真实网页内容人工编写,并经过准确性验证。
    • 覆盖开放域问题和多答案场景(如“古希腊人吃什么食物?”需综合多个文档信息回答)。
  • 特点
    • 强调真实性和复杂性,问题设计避免简单分类,要求模型理解文本语义。
    • 旨在推动深度学习模型(如BERT)在问答任务中的应用,被视为阅读理解领域的“ImageNet”。

2. 扩展版本:MS MARCO Web Search(2024年发布)

  • 目标:优化搜索引擎和大型语义模型训练。
  • 数据规模
    • 包含约10亿个高质量网页(源自ClueWeb22),覆盖207种语言。
    • 含1000万独特查询及数百万带点击标签的查询-文档对。
  • 特点
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值