HUMANITY’S LAST EXAM (HLE) 综述：人工智能领域的“最终考试”

最新推荐文章于 2025-05-03 09:07:35 发布

Yuleave

最新推荐文章于 2025-05-03 09:07:35 发布

阅读量1.5k

点赞数 21

分类专栏：论文学习文章标签：人工智能自然语言处理学习

本文链接：https://blog.csdn.net/Yuleave/article/details/145346587

版权

论文地址：Humanity’s Last Exam

1. 背景与动机

随着大型语言模型（LLMs）能力的飞速发展，其在数学、编程、生物等领域的任务表现已超越人类。为了系统地衡量这些能力，LLMs 需要接受基准测试（Benchmarks）的评估。然而，现有的基准测试，如 MMLU，已经无法满足需求：

饱和现象严重：顶尖的 LLMs 在这些基准测试中已经能够达到超过 90% 的准确率，难以准确反映 AI 能力的真实水平。
无法有效评估前沿能力：现有基准测试无法充分评估 AI 在人类知识前沿领域的进步。

为了解决上述问题，HUMANITY’S LAST EXAM (HLE) 应运而生，旨在成为评估 AI 学术能力的最终封闭式基准测试。

2. HLE 的核心特点

2.1 挑战性与前沿性

高难度：HLE 包含 3000 道 极具挑战性的问题，涵盖数学、人文、自然科学等 100 多个学科

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

Yuleave

关注关注

21
点赞
踩
19

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

后人类伦理学：人工智能时代的道德重构

AI天才研究院

03-10

1083

我们假设一个智能城市交通管理系统，该系统需要根据实时交通数据和城市规划目标，做出交通调控和优化决策。然而，这些决策不仅需要考虑交通效率，还需兼顾公平性、安全性和环境保护等多重目标。这就引入了伦理决策的需求，确保系统决策符合社会伦理标准和法律法规。

Scale AI 和 CAIS 公布 Humanity’s Last Exam 的结果，这是一项突破性的新基准

weixin_41446370的博客

01-26

1433

Scale AI 和人工智能安全中心（CAIS）很荣幸地发布了 “人类最后的考试”（Humanity’s Last Exam）的结果，这是一项开创性的新人工智能基准测试，旨在测试人工智能知识在人类专业知识前沿的极限。结果表明，与早期模型相比，人工智能的推理能力有了显著提高，但目前的模型仍然只能正确回答不到10%的专家问题。点击阅读论文。新基准被称为 “人类最后的考试”，评估人工智能系统是否在数学、人文科学和自然科学等广泛领域达到了世界级专家水平的推理和知识能力。

参与评论您还未登录，请先登录后发表或查看评论

介绍与评测Intel HLE与RTM技术

zenny_chen的专栏

04-23

1746

HLE（即Hardware Lock Elision，硬件锁省略）以及 RTM（即Restricted Transactional Memory，受限的事务性存储器）是Intel在x86微架构中所引入的两条指令集系统，它们均属于 TSX（Transactional Synchronization Extensions，事务性同步扩展）指令集扩展。

hle：多模态知识前沿的终极学术基准

gitblog_00824的博客

03-27

398

hle：多模态知识前沿的终极学术基准 hle Humanity's Last Exam 项目地址: https://gitcode.com/gh_mirrors/hl/hle ...

上交大新作，817样本激发7倍推理性能

AI_Conf的博客

02-16

1027

大模型(LLM)是一种人工智能模型，旨在理解和生成人类语言。它们在大量的文本数据上进行训练，可以执行广泛的任务，包括文本总结、翻译、情感分析等等。LLM的特点是规模庞大，包含数十亿的参数，帮助它们学习语言数据中的复杂模式。这些模型通常基于深度学习架构，如转化器，这有助于它们在各种NLP任务上取得令人印象深刻的表现。

谷歌DeepMind震撼发布TxGemma：高效药物研发大模型智能体！

2401_85390073的博客

03-30

849

摘要治疗开发是一项成本高昂且风险较高的事业，常常受到高失败率的困扰。为解决这一问题，我们推出了TxGemma，一套高效、全能型的大型语言模型（LLMs），能够进行治疗属性预测以及交互式推理和可解释性分析。与特定任务模型不同，TxGemma从多种来源综合信息，使其能够在整个治疗开发流程中得到广泛应用。该套件包括从Gemma-2在综合数据集（包含小分子、蛋白质、核酸、疾病和细胞系）上微调得到的2B、9B和27B参数模型。

DeepSeek-R1、o1都低于10%，人类给AI的「最后考试」来了，贡献者名单长达两页

AIBigModel的博客

02-09

977

如果模型能在 HLE 上取得高准确度表现，则说明其在封闭式、可验证的问题和前沿的科学知识上具备了专家级的表现，但仅靠这个基准，并不能表明模型已经具备自主研究能力或者已经是所谓的「通用人工智能」。该团队表示，虽然目前的 LLM 在 HLE 上的准确度非常低，但最近的历史表明，这个基准很快就会饱和 —— 前沿模型的性能可在短时间内从接近零到接近完美。问题通常需要研究生水平的专业知识或高度特定主题的测试知识（例如，精确的历史细节、琐事、当地习俗），并且有领域专家接受的具体、明确的答案。

WebThinker：让大模型成为深度研究大师的魔法引擎

步子哥的博客

05-01

897

想象一下，你是一位科学家，面前堆满了需要查阅的文献、网页和数据，但时间紧迫，任务繁重。突然，一个智能助手跳出来，它不仅能帮你搜索信息，还能像人类研究员一样，边思考、边搜索、边撰写报告，甚至能深入网页的“兔子洞”挖掘隐藏的宝藏。这不是科幻小说，而是的真实能力——一个让大型推理模型（Large Reasoning Models, LRMs）化身深度研究大师的开源框架。今天，我们将带你走进这个令人兴奋的科技冒险，探索 WebThinker 如何颠覆传统研究方式，让复杂问题迎刃而解。

支付宝开放平台-开发者社区——AI 日报「2 月 8 日」

2401_85476653的博客

02-08

511

基于此现状，Center for AI Safety（AI 安全中心）与 Scale AI 联合打造一个名字相当吸引眼球的新基准：Humanity's Last Exam，即「人类的最后考试」，简称 HLE。如果模型能在 HLE 上取得高准确度表现，则说明其在封闭式、可验证的问题和前沿的科学知识上具备了专家级的表现，但仅靠这个基准，并不能表明模型已经具备自主研究能力或者已经是所谓的「通用人工智能」。就在今天，纳德拉官宣，GitHub Copilot将all-in智能体，微软自主的SWE智能体首次亮相。

学术领域的极限挑战：人类最后的闭卷考试基准（HUMANITY'S LAST EXAM）

02-15

内容概要：该文章介绍了“HUMANITY’S LAST EXAM (HLE)”这一全球性的学术基准测试项目。HLE包含了来自全球近一千名学科专家提交并经过多轮严格审核的2,700道难度极高的跨学科试题，旨在全面评估大规模语言模型（LLM...

Star Requiem: Humanity's Last Stand:一个独立的太空策略游戏-它是人类生存的游戏。-开源

04-30

在未来的1000年中，人类已经远游索尔（Sol）家之外，在附近银河系中开辟了一个新帝国。人类几乎放弃了好战的方式，... 最后，摧毁4个大舰队的4个旗舰，或者，如果您足够大胆（或绝望），请派遣一个舰队摧毁AI核心。

为什么相关性不是因果关系？人工智能中的因果推理探秘

最新发布

Loving_enjoy的博客

05-03

747

无论是想快速搭建一个可用的NER系统，还是希望深入理解概率图模型的精髓，CRF都是值得放入工具箱的利器。'prev_is_b-geo': prev_tag == 'B-GEO' # 假设prev_tag是前一个标签。('参观天安门', ['O', 'B-POI', 'I-POI', 'I-POI'])" —— 人工智能先驱吴恩达。- **BiLSTM-CRF**：经典组合，在CoNLL-2003达到91%的F1值。('北京市', ['B-GEO', 'I-GEO', 'I-GEO']),

高压开关柜局部放电信号分析系统

m0_61057267的博客

04-28

1914

这个项目是我在2025年实现的高压开关柜局部放电信号分析系统，目的是通过采集分析局部放电信号，判断设备的工作状态和潜在故障。系统包含从信号模拟生成、特征提取、到深度学习模型训练的全流程，最终可自动生成分析报告。

远光软件发布九天 AI 应用开发平台，加速企业研发效能跃升

YG_JT的博客

04-30

703

4月25日，远光软件在“2025珠海软件产业年会暨AI技术赋能行业发展交流会”上以虚拟直播方式发布了远光九天AI应用开发平台。

Python项目--基于计算机视觉的手势识别控制系统

exlink2012的专栏

04-23

3908

随着人机交互技术的快速发展，传统的键盘、鼠标等输入设备已经不能满足人们对自然、直观交互的需求。手势识别作为一种非接触式的人机交互方式，具有操作自然、交互直观的特点，在智能家居、游戏控制、虚拟现实等领域有着广泛的应用前景。本项目旨在开发一个基于计算机视觉的手势识别控制系统，通过摄像头捕获用户的手部动作，实时识别手势类型，并将识别结果转化为相应的控制命令，实现对计算机或其他设备的非接触式控制。

操作系统级竞争开启：AI Agent 能否成为人形机器人爆发的奇点？

望获实时Linux系统

04-30

1245

本文深入探讨了在人形机器人产业从“机械执行”向“自主决策”跃迁的背景下，实时操作系统（RTOS）与AI Agent融合对突破物理世界响应极限的关键作用，重点分析了望获实时Linux等国产RTOS的技术优势及其在不同领域的应用前景，同时客观阐述了产业面临的挑战与机遇，旨在为相关领域的学术研究和产业发展提供参考与借鉴。

生产级RAG系统一些经验总结

yanqianglifei的专栏

05-01

832

可能需要修剪或总结它们。一种常见方法是先检索，然后运行较小的语言模型或启发式算法，将每个检索到的文档总结为一段话，然后将这些摘要输入最终的语言模型。这有时被称为上下文压缩或自适应上下文。LlamaIndex等工具可以自动执行第二阶段，使用语言模型在最终答案之前将初始检索集压缩成更短的形式。仅在绝对需要时使用此方法，因为任何摘要都是额外的生成步骤，可能会引入自己的错误。随着2025年16k+标记模型的出现，如果适合，许多RAG系统尝试只提供原始文本，因为这保留了最大的细节。

CAHO：探索Cards Against Humanity的在线实现

1. 网络反人类卡（Cards Against Humanity: Online，简称CAHO）是一个基于网络的多人卡牌游戏平台。该平台允许用户以在线或浏览器体验的方式来玩Cards Against Humanity（CAH），这是一种流行的社会派对游戏。用户...