AlpacaEval
不同的测试集、测试方案
1、测试方案
1.1 OpenCompass(上海人工智能研究所)
OpenCompass 官网 榜单
关于openCompass与大模型评测现状的分析
实操链接
AlpacaEval 排行榜链接
AlpacaEval github链接
1.2 FlagEval(智源)
涵盖了 22 个主观和客观评测集,84433 道题目。
1.3 AlpacaEval(斯坦福)
斯坦福发布LLM排行榜AlpacaEval,微软WizardLM登顶开源模型第一
官网
AlpacaEval 基于 AlpacaFarm 数据集来测试模型遵循一般用户指令的能力。具体地,研究人员以 GPT-4 或 Claude 为自动评估器,以 GPT-3.5(Davinci-003)为基准,将目标模型与 GPT-3.5 的回复进行比较,计算获胜率。
虽然仅基于 GPT-4 进行自动评估,但与基于 1.8 万条真实人类标注排序结果之间高达 0.94 的皮尔逊相关系数,证明了 AlpacaEval 榜单排名的高可靠性。
1.4 SuperCLUE
开源,专为中文大模型的评测工具: SuperCLUE-Open:中文通用大模型多轮开放问题测评基准(代码)
2、测试数据集
2.1 llama测试集:包含HumanEval
文章里介绍了每种场景测试所使用的数据集。
比如数学推理:MATH和GSM8k(GSM8K 数据集介绍);代码生成:HumanEval 和 MBPP github(MBPP huggingface)
2.2 CEval
- 用于评估中文语言模型的综合基准测试;
- 包含52个学科的近14,000道问题,涵盖数学、物理、化学、生物、历史、政治、计算机和其他学科,以及公务员、注册会计师、律师和医生的专业考试。
2.3 MT-Bench
MT-Bench 模型测评体验
MT-Bench介绍 ( 原文)
- 多轮对话能力测试;
- 用于评估模型在多轮对话中的会话流程和遵循指令的能力;
- 使用 GPT-4 对模型响应进行评分。
2.4 MMLU
- 旨在通过零样本和少量热点评估模型。
- 测试大语言模型的多任务准确性。
- 测试覆盖了基础数学、美国历史、计算机科学、法律等57项任务。