大模型能力测试

风路丞

已于 2024-10-09 10:54:56 修改

阅读量518

点赞数

分类专栏：算法学习文章标签：算法 python 数据分析

于 2023-11-09 10:46:06 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_19072921/article/details/134306071

版权

算法学习专栏收录该内容

40 篇文章

订阅专栏

AlpacaEval

不同的测试集、测试方案

不同的测试集、测试方案

1、测试方案

1.1 OpenCompass（上海人工智能研究所）

OpenCompass 官网榜单
 关于openCompass与大模型评测现状的分析

实操链接

AlpacaEval 排行榜链接
 AlpacaEval github链接

1.2 FlagEval（智源）

智源推出 FlagEval（天秤）大模型评测体系

涵盖了 22 个主观和客观评测集，84433 道题目。

1.3 AlpacaEval（斯坦福）

斯坦福发布LLM排行榜AlpacaEval，微软WizardLM登顶开源模型第一
 官网

AlpacaEval 基于 AlpacaFarm 数据集来测试模型遵循一般用户指令的能力。具体地，研究人员以 GPT-4 或 Claude 为自动评估器，以 GPT-3.5（Davinci-003）为基准，将目标模型与 GPT-3.5 的回复进行比较，计算获胜率。
虽然仅基于 GPT-4 进行自动评估，但与基于 1.8 万条真实人类标注排序结果之间高达 0.94 的皮尔逊相关系数，证明了 AlpacaEval 榜单排名的高可靠性。

1.4 SuperCLUE

开源，专为中文大模型的评测工具: SuperCLUE-Open：中文通用大模型多轮开放问题测评基准（代码）

2、测试数据集

2.1 llama测试集：包含HumanEval

当代语言模型的评价体系

文章里介绍了每种场景测试所使用的数据集。
比如数学推理：MATH和GSM8k（GSM8K 数据集介绍）；代码生成：HumanEval 和 MBPP github（MBPP huggingface）

2.2 CEval

用于评估中文语言模型的综合基准测试；
包含52个学科的近14,000道问题，涵盖数学、物理、化学、生物、历史、政治、计算机和其他学科，以及公务员、注册会计师、律师和医生的专业考试。

CEval 排行榜
 CEval介绍
 CEval数据集

2.3 MT-Bench

MT-Bench 模型测评体验
 MT-Bench介绍（原文）

多轮对话能力测试；
用于评估模型在多轮对话中的会话流程和遵循指令的能力；
使用 GPT-4 对模型响应进行评分。

2.4 MMLU

旨在通过零样本和少量热点评估模型。
测试大语言模型的多任务准确性。
测试覆盖了基础数学、美国历史、计算机科学、法律等57项任务。

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。