惊!大模型新基准MMLU-Pro翻车了~
原创 热爱AI的 NLP前沿 2024年07月09日 11:55 湖北
要说大模型的评测榜单,MMLU几乎是每个闭、源开源模型必评测的一个基准。但是随着模型能力越来越厉害,在这个榜上的指标越来越高,基本要饱和了,后面可能难以评估不同模型的差距了,很多大佬都表示需要一些新的榜单来评估大模型,如下图。
MMLU-Pro是由 TIGER-Lab 发布,致力于提供一个更强大且更具挑战性的大规模多任务语言理解数据集,作为MMLU榜单的替代者。HuggingFace 已经指定 MMLU-Pro 为 open llm leaderboard V2 中新的替代基准。