斯坦福发布LLM排行榜AlpacaEval,微软WizardLM登顶开源模型第一

斯坦福大学发布的AlpacaEval排行榜利用LLM全自动评估模型,其中微软的WizardLM在开源模型中排名第一,超越了参数量更大的Guanaco。AlpacaEval基于GPT-4和Claude的评估,展示了高可靠性,降低了经济和时间成本。
摘要由CSDN通过智能技术生成

e9e51e795df779a85827fad0163b385f.gif

最近,来自斯坦福大学的研究人员发布了全新的大语言模型排行榜 AlpacaEval,它是一种基于 LLM 的全自动评估基准,且更加快速、廉价和可靠。

49377a0a282cc3dd3c94908b446fe88c.png

排行榜链接:

https://tatsu-lab.github.io/alpaca_eval/

Github链接:

https://github.com/tatsu-lab/alpaca_eval

AlpacaEval 基于 AlpacaFarm 数据集来测试模型遵循一般用户指令的能力。具体地,研究人员以 GPT-4 或 Claude 为自动评估器,以 GPT-3.5(Davinci-003)为基准,将目标模型与 GPT-3.5 的回复进行比较,计算获胜率。

虽然仅基于 GPT-4 进行自动评估,但与基于 1.8 万条真实人类标注排序结果之间高达 0.94 的皮尔逊相关系数,证明了 AlpacaEval 榜单排名的高可靠性。

90f82eb2c6c0164b1a734b3ac476b35b.png

而相对于人工标注,全自动化的 AlpacaEval 仅需花费约 1/22 的经济成本1/25 的时间成本

1a375913fd26c1f48fba883a6cbccb99.png

目前,AlpacaEval 团队已开源所有模型评估代码和分析数据,以及支持未来新模型榜单更新的测试工具。开源社区技术人员也可以基于该工具和自有 API_KEY 评测目标模型,并将经过验证的测试细节与结果贡献到榜单。

5e25cafaddcea77dfb7dcb5df351b36e.png

榜单详情

AlpacaEval 分为以 GPT-4 和 Claude 为元标注器的两个子榜单。

首先,在 GPT-4 评估榜单中,GPT-4 以高达 95.28% 的分数断崖式稳居榜首,紧随其后的毫无悬念是 Claude 与 ChatGPT。

而在所有开源模型中,微软研究人员提出的 WizardLM 以仅 130 亿的参数版本排名第一,

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值