模型能力测试

不同的测试集、测试方案

1、测试方案

1.1 OpenCompass(上海人工智能研究所)

OpenCompass 官网 榜单
关于openCompass与大模型评测现状的分析

实操链接

AlpacaEval 排行榜链接
AlpacaEval github链接

1.2 FlagEval(智源)

智源推出 FlagEval(天秤)大模型评测体系

涵盖了 22 个主观和客观评测集,84433 道题目。

1.3 AlpacaEval(斯坦福)

斯坦福发布LLM排行榜AlpacaEval,微软WizardLM登顶开源模型第一
官网

AlpacaEval 基于 AlpacaFarm 数据集来测试模型遵循一般用户指令的能力。具体地,研究人员以 GPT-4 或 Claude 为自动评估器,以 GPT-3.5(Davinci-003)为基准,将目标模型与 GPT-3.5 的回复进行比较,计算获胜率。
虽然仅基于 GPT-4 进行自动评估,但与基于 1.8 万条真实人类标注排序结果之间高达 0.94 的皮尔逊相关系数,证明了 AlpacaEval 榜单排名的高可靠性。

1.4 SuperCLUE

开源,专为中文大模型的评测工具: SuperCLUE-Open:中文通用大模型多轮开放问题测评基准代码

更多

2、测试数据集

2.1 llama测试集:包含HumanEval

当代语言模型的评价体系

文章里介绍了每种场景测试所使用的数据集。
比如数学推理:MATHGSM8kGSM8K 数据集介绍);代码生成:HumanEvalMBPP githubMBPP huggingface

2.2 CEval

  • 用于评估中文语言模型的综合基准测试;
  • 包含52个学科的近14,000道问题,涵盖数学、物理、化学、生物、历史、政治、计算机和其他学科,以及公务员、注册会计师、律师和医生的专业考试。

CEval 排行榜
CEval介绍
CEval数据集

2.3 MT-Bench

MT-Bench 模型测评体验
MT-Bench介绍原文

  • 多轮对话能力测试;
  • 用于评估模型在多轮对话中的会话流程和遵循指令的能力;
  • 使用 GPT-4 对模型响应进行评分。

2.4 MMLU

MMLU介绍

  • 旨在通过零样本和少量热点评估模型。
  • 测试大语言模型的多任务准确性。
  • 测试覆盖了基础数学、美国历史、计算机科学、法律等57项任务。
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值