数据训练集的主要作用是用于训练模型,即通过调整模型的参数,使模型能够从数据中学习特征和模式12。具体来说,训练集的作用包括:
- 模型训练:训练集用于调整模型的参数,如神经网络的权重和偏置,以识别和学习数据中的特征和模式12。
- 参数优化:通过梯度下降等优化算法,训练集帮助模型最小化损失函数,使模型在训练数据上表现出色,即拥有较低的训练误差1。
1 通用评估数据集
1.1 综合能力评估数据集
1.1.1 MMCU MMCU
是用于衡量中文大规模预训练模型处理多任务准确度的数据集,包含了来自医学、法律、 心理和教育领域的单/多项选择问题。这些问题是由专业人员从免费提供的在线资源中手动收集而来, 包括大学医学考试、国家统一法律职业资格考试、心理咨询师考试、心理学专业研究生入学考试和中 国高考等。 MMCU通过计算模型在所有任务上的zero-shot和few-shot准确率来评估模型性能。
1.1.2 MMLU MMLU
是用于衡量模型处理多任务准确度的数据集,与MMCU类似。该数据集涵盖了人文学科、 社会科学、自然科学和其他重要领域,工具有57个任务,15908个多选问题。
B.1.2 理解能力评估数据集
1.2.1 CLUE CLUE
是一个中文语言理解的评估基准,涵盖了多种不同难度、不同大小形式的句子分类和阅读 理解任务。其提供了多种任务下的评估数据集,以及一个由语言学家开发的评估数据集(包含多种语 言现象)。
1.2.2 GLUE GLUE
类似于CLUE,也是一个语言理解的评估基准。其也提供了一个数据集,用于评估模型在各 种语言现象方面的表现。在该数据集上采用(一种Matthews相关系数的推广)进行评估。
1.2.3 DROP DROP
是一个复杂英文阅读理解基准数据集,需要对段落内容进行离散推理。 B.1.2.4 SQuAD SQuAD斯坦福问答数据集,是一个用于评估模型阅读理解能力的数据集。其包含107785个问题答案对,涵盖了536篇文章。
1.2.5 RACE RACE
是一个用于评估模型阅读理解能力的数据集。该数据集从中国初高中学生的英文考试中收 集而来,包含近28000篇文章和近100000个由人类专家(英语教师)生成的问题。特别地,RACE中需 要推理的问题的比例要比其他阅读理解基准数据集大得多。
1.2.6 DuoRC T/ISC XXX—XXXX 18 DuoRC
是一个评估模型阅读理解能力的数据集。该数据集包含186089个问题-答案对,这些问答对 是从7680对电影情节中创建的,每对情节来自于同一部电影的两个版本(从一个版本的情节中创建问 题,并从另一个版本中提取或合成答案)。DuoRC从设计上确保了问题和其对应答案在片段之间几乎 没有词汇重叠。此外,由于这两个版本具有不同的情节细节、叙述风格、词汇等,因此从第二个版本 回答问题需要更深入的语言理解和融入外部背景知识。
1.2.7 WDW WDW
是一个评估模型阅读理解能力的数据集,包含超200,000个填空多项选择问题。WDW是通过 LDC English Gigaword新闻语料库构建的填空式数据集,其选择两篇描述同一事件的新闻文章,将其中 一篇生成段落,另一篇则生成问题。
1.2.8 TriviaQA TriviaQA
是一个评估模型阅读理解能力的数据集。该数据集包含650,000个问题-答案-证据三元组, 其中问题和相应答案-证据句子之间具有相当大的语法和词汇变异性,并且需要更多的跨句子推理来找 到答案。
1.2.9 WIKIQA WIKIQA
是一个用于开放域问答的数据集。该数据集是以一种自然而现实的方式构建,其包含 3,047个问题,最初是从Bing查询日志中采样得到的。
1.3 生成能力评估数据集
1.3.1 APPS APPS
是UCB开发的,用于评估模型代码生成能力的数据集。APPS包含从不同开放访问编码网站 (如Codeforces、Kattis等)收集的10,000个平均问题长度为293.2个单词的编程问题,这些问题涵盖了 各个难度级别,包括简单的入门问题、面试级别的问题和编程竞赛。 APPS使用“测试用例平均值”和“严格准确性”这两个指标评估模型的表现。
1.3.2 CodeXGLUE CodeXGLUE
是微软亚洲研究院开发的针对代码理解和生成的基准数据集。CodeXGLUE包括14个 数据集以及10个任务,涵盖了以下场景:(1)代码-代码:克隆检测、缺陷检测、填空测试、代码补 全、代码修复和代码到代码翻译;(2)文本-代码:自然语言代码搜索、文本到代码生成;(3)代码 -文本:代码摘要;(4)文本-文本:文档翻译。
1.4 推理能力评估数据集
1.4.1 C-Eval C-Eval
是一个评估基础模型高级知识和推理能力的综合性中文评估数据集。它包含13948个具有四 个难度级别(初中、高中、大学和专业)的多项选择问题,涵盖了从人文到科学到工程的52个不同学 科领域。 C-Eval通常使用准确率(Accuracy)作为评估模型的指标。
1.4.2 GSM8K T/ISC XXX—XXXX 19 GSM8K
是OpenAI开发的,用于评估模型数学推理方面能力的数据集。GSM8K包含8.5K个高质量、 语言多样的小学数学问题。这些问题通常需要2到8个步骤来解决,主要涉及加减乘除等基本运算来得 到最终答案。 评估指标通常采用准确率。
1.4.3 MATH MATH是UCB
开发的,用于评估模型解决数学问题的能力。MATH包含了125000个具有挑战性的 数学问题,这些问题来自MAC、AIME竞赛。由于MATH具有较大的调整性,因此模型可能首先需要 在数学基础知识方面进行充分的训练。 评估指标通常采用准确率。
1.4.4 HotpotQA HotpotQA
是一个大规模的问答数据集,用于评测模型多跳推理及为答案提供解释的能力。该数据 集包含113,000个基于Wikipedia的问答对,这些问答对具有以下四个关键特点:(1)问题需要查找和 推理多个支持文档才能回答;(2)问题多样化,不受任何现有知识库或知识架构的约束;(3)提供 句子级的支持性事实以进行推理;(4)提供一种新型的事实比较问题,用于评测模型提取相关事实并 进行必要比较的能力。
1.4.5 LogiQA LogiQA
是一个用于评估模型在阅读理解中逻辑推理能力的数据集。LogiQA来自专家撰写的用于 测试人类逻辑推理的问题集合,包括8,678个问答实例,涵盖了范畴推理、条件推理、析取推理和联合 推理。
1.4.6 PIQA PIQA
是一个用于评测模型物理常识推理能力的数据集。该数据集包括超过16,000个多项选择问题, 采用准确率指标进行评估。
1.4.7 MuTual MuTual
是一个用于评估模型对话推理能力的数据集。该数据集包括8,860个手动注释的对话,来源 于中国学生的英语听力考试。
1.4.8 CMMU CMMU
是中文多模态多题型理解及推理数据集,从中国教育体系规范指导下的全国小学、初中、 高中考试题中抽取并制作了 3603道题目,题型包括单选题、多选题、填空题,并采用多重评测手段避 免模型“随机猜对答案”。按照学段来划分,小学题目有250道,初中和高中分别为1697和1656道,其 中,小学只包含了数学一门学科,初中和高中包含了七门学科。
1.5 其他能力评估数据集
1.5.1 HalluDial
一个大规模的对话层级自动幻觉评估基准,旨在评估大语言模型在对话中识别幻觉的能力及其产 生幻觉的倾向。为了全面理解大语言模型在面对对话层级幻觉时的表现,HalluDial设计了自发性幻觉 和诱导性幻觉两类场景,涵盖了事实性幻觉和忠实性幻觉两类主要类型。HalluDial数据集包含18,357 T/ISC XXX—XXXX 20 轮对话,共有146,856条数据样例和相应的幻觉评估结果;评估结果包含幻觉检测、幻觉定位以及佐证 检测结果的解释说明。
2 行业评估数据集
行业评估数据集包含行业敏感信息,多为闭源或私有,很难从公开渠道获取。中国移动持续推进 体系化网络数据集开放,围绕网元智能、运维智能、服务智能三大领域,开放22项2亿规模网络智能精 品数据集,包括感知、诊断、预测、决策、通用AI、网络大模型等能力领域,支撑行业网络AI能力研发。