数据集 MS MARCO

maxmaxma

于 2025-03-19 14:07:34 发布

阅读量966

点赞数 5

文章标签： RAG

本文链接：https://blog.csdn.net/u010249118/article/details/146369575

版权

MS MARCO（Microsoft Machine Reading Comprehension）是微软推出的系列大规模自然语言处理数据集，旨在推动机器阅读理解、问答系统和信息检索领域的研究。以下是该数据集的核心信息：

目标：模拟真实场景的问答任务，促进机器理解复杂问题并生成答案。
数据构成：
- 包含约10万个匿名用户查询（来自Bing搜索引擎和Cortana虚拟助手）。
- 答案基于真实网页内容人工编写，并经过准确性验证。
- 覆盖开放域问题和多答案场景（如“古希腊人吃什么食物？”需综合多个文档信息回答）。
特点：
- 强调真实性和复杂性，问题设计避免简单分类，要求模型理解文本语义。
- 旨在推动深度学习模型（如BERT）在问答任务中的应用，被视为阅读理解领域的“ImageNet”。