MS MARCO(Microsoft Machine Reading Comprehension)是微软推出的系列大规模自然语言处理数据集,旨在推动机器阅读理解、问答系统和信息检索领域的研究。以下是该数据集的核心信息:
1. 基础版本(2016年发布)
- 目标:模拟真实场景的问答任务,促进机器理解复杂问题并生成答案。
- 数据构成:
- 包含约10万个匿名用户查询(来自Bing搜索引擎和Cortana虚拟助手)。
- 答案基于真实网页内容人工编写,并经过准确性验证。
- 覆盖开放域问题和多答案场景(如“古希腊人吃什么食物?”需综合多个文档信息回答)。
- 特点:
- 强调真实性和复杂性,问题设计避免简单分类,要求模型理解文本语义。
- 旨在推动深度学习模型(如BERT)在问答任务中的应用,被视为阅读理解领域的“ImageNet”。
2. 扩展版本:MS MARCO Web Search(2024年发布)
- 目标:优化搜索引擎和大型语义模型训练。
- 数据规模:
- 包含约10亿个高质量网页(源自ClueWeb22),覆盖207种语言。
- 含1000万独特查询及数百万带点击标签的查询-文档对。
- 特点