最近,来自斯坦福大学的研究人员发布了全新的大语言模型排行榜 AlpacaEval,它是一种基于 LLM 的全自动评估基准,且更加快速、廉价和可靠。
排行榜链接:
https://tatsu-lab.github.io/alpaca_eval/
Github链接:
https://github.com/tatsu-lab/alpaca_eval
AlpacaEval 基于 AlpacaFarm 数据集来测试模型遵循一般用户指令的能力。具体地,研究人员以 GPT-4 或 Claude 为自动评估器,以 GPT-3.5(Davinci-003)为基准,将目标模型与 GPT-3.5 的回复进行比较,计算获胜率。
虽然仅基于 GPT-4 进行自动评估,但与基于 1.8 万条真实人类标注排序结果之间高达 0.94 的皮尔逊相关系数,证明了 AlpacaEval 榜单排名的高可靠性。
而相对于人工标注,全自动化的 AlpacaEval 仅需花费约 1/22 的经济成本和 1/25 的时间成本。
目前,AlpacaEval 团队已开源所有模型评估代码和分析数据,以及支持未来新模型榜单更新的测试工具。开源社区技术人员也可以基于该工具和自有 API_KEY 评测目标模型,并将经过验证的测试细节与结果贡献到榜单。
榜单详情
AlpacaEval 分为以 GPT-4 和 Claude 为元标注器的两个子榜单。
首先,在 GPT-4 评估榜单中,GPT-4 以高达 95.28% 的分数断崖式稳居榜首,紧随其后的毫无悬念是 Claude 与 ChatGPT。
而在所有开源模型中,微软研究人员提出的 WizardLM 以仅 130 亿的参数版本排名第一,