大模型能力评估数据集都有哪些?

大模型能力的评估数据集种类繁多,涵盖了语言理解、推理、生成、代码能力、安全性和鲁棒性等多个方面。以下是一些主要的评估数据集及其特点:

  1. 通用能力评估数据集

    • MMLU:多模态大规模多语言任务理解数据集,覆盖从基础教育到高级专业水平的57个科目,用于评估模型的知识储备和推理能力。
    • CMMLU:中文版的大语言模型基准,涵盖自然科学、社会科学、人文、工程和常识等67个主题,包含11,528个问题。
    • SuperGLUE:由纽约大学和谷歌联合推出,包含8个子任务,覆盖推理能力、常识问答、语言理解等。
    • Big-bench:综合评估模型在分析蕴涵、因果判断、经验判断、未知逻辑和已知事实等方面的能力。
  2. 推理与逻辑能力评估数据集

    • MATH:包含初高中数学题目,用LaTeX编写,部分题目类似代码阅读,用于评估数学推理能力。
    • GSM8K:小学数学问题数据集,包含8.5K高质量问题,用于评估数学推理运算能力。
    • CE-Eval:综合基准测试,包含近14,000道问题,覆盖52个学科,用于评估中文语言模型的能力。
  3. 代码生成能力评估数据集

    • HumanEval:由OpenAI推出,用于评估代码生成能力,包含人类编写的代码样例。
    • BBH:用于评估多语言代码生成能力。
  4. 行业与专业能力评估数据集

    • FinEval:金融领域的通用能力评估数据集。
    • PubMedOA:医学领域的通用能力评估数据集。
    • JEC-OA:学术期刊领域的能力评估数据集。
  5. 安全性和鲁棒性评估数据集

    • SafetyBench:针对语言模型的安全性评估。
    • TOXIGEN:用于检测模型生成有害内容的能力。
  6. 多模态能力评估数据集

    • MMBench:视觉问答数据集,用于评估模型在视觉推理上的表现。
    • LLaVA-Bench:视觉推理任务的数据集。
  7. 中文特定能力评估数据集

    • SuperCLUE:中文大模型的综合性评测基准,包括语言理解与生成、专业技能与知识、Agent智能体和安全性等四个象限。
    • GAOKAO-Bench:基于中国高考题目的语言理解和逻辑推理能力评估框架。
  8. 其他重要数据集

    • GLUE:自然语言理解任务的基准测试,包括多项任务如文本分类和情感分析。
    • Natural QuestionsTriviaQA:用于常识理解测试。
    • Pass@k:用于评估模型在特定任务上的表现。

这些数据集从不同角度全面评估了大模型的能力,包括理解、生成、推理、代码编写、安全性以及多模态处理等。通过这些数据集的评测,可以有效揭示模型的强项和弱点,为模型优化提供方向。同时,不同数据集的使用也需根据具体任务需求进行选择,以确保评测结果的准确性和全面性。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

魔王阿卡纳兹

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值