大模型新基准MMLU-Pro翻车了~

惊!大模型新基准MMLU-Pro翻车了~

原创 热爱AI的 NLP前沿 2024年07月09日 11:55 湖北

要说大模型的评测榜单,MMLU几乎是每个闭、源开源模型必评测的一个基准。但是随着模型能力越来越厉害,在这个榜上的指标越来越高,基本要饱和了,后面可能难以评估不同模型的差距了,很多大佬都表示需要一些新的榜单来评估大模型,如下图。

图片

MMLU-Pro是由 TIGER-Lab 发布,致力于提供一个更强大且更具挑战性的大规模多任务语言理解数据集,作为MMLU榜单的替代者。HuggingFace 已经指定 MMLU-Pro 为 open llm leaderboard V2 中新的替代基准。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

强化学习曾小健

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值