斯坦福发布LLM排行榜AlpacaEval，微软WizardLM登顶开源模型第一

最新推荐文章于 2024-09-11 00:43:46 发布

PaperWeekly

最新推荐文章于 2024-09-11 00:43:46 发布

阅读量1.5k

点赞数 1

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/c9Yv2cf9I06K2A9E/article/details/131218464

版权

斯坦福大学发布的AlpacaEval排行榜利用LLM全自动评估模型，其中微软的WizardLM在开源模型中排名第一，超越了参数量更大的Guanaco。AlpacaEval基于GPT-4和Claude的评估，展示了高可靠性，降低了经济和时间成本。

摘要由CSDN通过智能技术生成

最近，来自斯坦福大学的研究人员发布了全新的大语言模型排行榜 AlpacaEval，它是一种基于 LLM 的全自动评估基准，且更加快速、廉价和可靠。

排行榜链接：

https://tatsu-lab.github.io/alpaca_eval/

Github链接：

https://github.com/tatsu-lab/alpaca_eval

AlpacaEval 基于 AlpacaFarm 数据集来测试模型遵循一般用户指令的能力。具体地，研究人员以 GPT-4 或 Claude 为自动评估器，以 GPT-3.5（Davinci-003）为基准，将目标模型与 GPT-3.5 的回复进行比较，计算获胜率。

虽然仅基于 GPT-4 进行自动评估，但与基于 1.8 万条真实人类标注排序结果之间高达 0.94 的皮尔逊相关系数，证明了 AlpacaEval 榜单排名的高可靠性。

而相对于人工标注，全自动化的 AlpacaEval 仅需花费约 1/22 的经济成本和 1/25 的时间成本。

目前，AlpacaEval 团队已开源所有模型评估代码和分析数据，以及支持未来新模型榜单更新的测试工具。开源社区技术人员也可以基于该工具和自有 API_KEY 评测目标模型，并将经过验证的测试细节与结果贡献到榜单。

榜单详情

AlpacaEval 分为以 GPT-4 和 Claude 为元标注器的两个子榜单。

首先，在 GPT-4 评估榜单中，GPT-4 以高达 95.28% 的分数断崖式稳居榜首，紧随其后的毫无悬念是 Claude 与 ChatGPT。

而在所有开源模型中，微软研究人员提出的 WizardLM 以仅 130 亿的参数版本排名第一，

最低0.47元/天解锁文章

关注

1
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。