刘鹏飞团队发布AI觉醒第二幕:认知革命已悄然降临
原创 编辑部 深度学习自然语言处理 2025年04月21日 20:46 江苏
论文:Generative AI Act II: Test Time Scaling Drives Cognition Engineering
链接:https://arxiv.org/pdf/2504.13828
AI的「第二幕」来了!从知识库到思考引擎的转变
过去四年(2020-2023)是生成式AI的「第一幕」,像ChatGPT这样的模型通过海量数据和参数堆砌成了知识宝库。但就像会背公式不等于会解题,第一代AI存在三大短板:知识滞后、逻辑浅薄、思维僵化。这时候人类需要「提示工程」——像魔法咒语一样精心设计问题才能获得好答案。
2024年开启的「第二幕」则像给AI装上了思考引擎。通过「Test Time Scaling」技术,AI在回答问题时不再是直接「翻答案」,而是像人类一样展开多步骤推理,甚至能连接看似无关的知识点。这标志着AI从「知识检索机」进化为真正的「思考机器」。
三阶段进化论:AI如何从「知识孤岛」到「思维宇宙」
论文用物理学知识网络作比喻,揭示了AI认知能力的三阶段进化:
-
预训练阶段:形成零散的「知识孤岛」(蓝色虚线连接)
-
微调阶段:建立近距离知识点间的「绿色高速路」
-
测试时扩展:打通跨领域「红色立交桥」,实现多跳推理
举个🌰:早期AI知道「万有引力」和「自由落体」,但无法将两者联系起来。通过测试时扩展,AI现在能像物理学家一样建立完整逻辑链,回答「为什么苹果会落地」时,会先推导引力公式,再结合地球质量计算加速度。
认知工程:让AI学会「深度思考」的魔法工具箱
认知工程的核心是「数据→信息→知识→智慧」的DIKW金字塔升级:
-
传统AI:停留在数据/信息层(查资料机器)
-
第一幕AI:达到知识层(会整理知识的图书管理员)
-
第二幕AI:冲击智慧层(像教授一样创造新知)
这里有个关键公式:
y ∼ M(·|q,g,φ)
(输出=问题×生成器×搜索策略)
相当于给AI装上了「思维导航系统」,在回答时自动规划最优推理路径。
测试时扩展四板斧:AI如何像人类一样「多想几步」
论文总结了四大核心方法:
-
并行采样:让AI「多写几版草稿」,选最优答案(类似考试检查多遍)
-
树状搜索:像下棋推演般探索所有可能路径(AlphaGo同款技术)
-
多轮修正:AI版「三省吾身」,通过自我批判改进答案
-
长链推理:生成包含反思、回溯的完整思考过程
举个编程题例子🌰:当AI遇到bug时,长链推理会先写代码→运行报错→检查日志→回溯问题→修改代码,整个过程可能生成上千字的思考记录。
实战攻略:如何训练一个会「自我纠错」的AI应用
训练这样的AI需要两板斧:
-
强化学习:设置「数学题得分」作为奖励,让AI在试错中进化
-
监督微调:用学霸的解题笔记(含详细步骤)当教材
关键技巧:
效率 = f(计算预算, 方法)/计算预算
这个公式指导开发者平衡计算成本与效果。就像教孩子做题,既不能「题海战术」耗光耐心,也不能「只讲一遍」草草了事。
未来已来:AI科学家、编程大师与安全卫士的崛起
应用案例已经遍地开花:
-
数学领域:DeepSeek-R1在美国数学邀请赛(AIME)拿到79.8分,接近人类顶尖选手
-
编程领域:AI在Codeforces竞赛中斩获金牌,能处理真实世界的复杂代码任务
-
安全领域:通过「思维链审核」自动检测有害内容,准确率比传统方法提升37%
最令人期待的是「科研加速」——AI正在生物制药、材料科学等领域辅助人类突破认知边界,像「超级科研助手」般同时追踪千条研究线索。
一共76页论文,一定要阅读原文哈!