论文地址:Humanity’s Last Exam
1. 背景与动机
随着大型语言模型(LLMs)能力的飞速发展,其在数学、编程、生物等领域的任务表现已超越人类。为了系统地衡量这些能力,LLMs 需要接受基准测试(Benchmarks)的评估。然而,现有的基准测试,如 MMLU,已经无法满足需求:
- 饱和现象严重:顶尖的 LLMs 在这些基准测试中已经能够达到超过 90% 的准确率,难以准确反映 AI 能力的真实水平。
- 无法有效评估前沿能力:现有基准测试无法充分评估 AI 在人类知识前沿领域的进步。
为了解决上述问题,HUMANITY’S LAST EXAM (HLE) 应运而生,旨在成为评估 AI 学术能力的最终封闭式基准测试。
2. HLE 的核心特点
2.1 挑战性与前沿性
- 高难度:HLE 包含 3000 道 极具挑战性的问题,涵盖数学、人文、自然科学等 100 多个学科