刘鹏飞团队发布AI觉醒第二幕:认知革命已悄然降临

刘鹏飞团队发布AI觉醒第二幕:认知革命已悄然降临

原创 编辑部 深度学习自然语言处理 2025年04月21日 20:46 江苏

图片

论文:Generative AI Act II: Test Time Scaling Drives Cognition Engineering
链接:https://arxiv.org/pdf/2504.13828

图片

AI的「第二幕」来了!从知识库到思考引擎的转变

图片

过去四年(2020-2023)是生成式AI的「第一幕」,像ChatGPT这样的模型通过海量数据和参数堆砌成了知识宝库。但就像会背公式不等于会解题,第一代AI存在三大短板:知识滞后、逻辑浅薄、思维僵化。这时候人类需要「提示工程」——像魔法咒语一样精心设计问题才能获得好答案。

2024年开启的「第二幕」则像给AI装上了思考引擎。通过「Test Time Scaling」技术,AI在回答问题时不再是直接「翻答案」,而是像人类一样展开多步骤推理,甚至能连接看似无关的知识点。这标志着AI从「知识检索机」进化为真正的「思考机器」。

三阶段进化论:AI如何从「知识孤岛」到「思维宇宙」

图片

论文用物理学知识网络作比喻,揭示了AI认知能力的三阶段进化:

  • 预训练阶段:形成零散的「知识孤岛」(蓝色虚线连接)

  • 微调阶段:建立近距离知识点间的「绿色高速路」

  • 测试时扩展打通跨领域「红色立交桥」,实现多跳推理

举个🌰:早期AI知道「万有引力」和「自由落体」,但无法将两者联系起来。通过测试时扩展,AI现在能像物理学家一样建立完整逻辑链,回答「为什么苹果会落地」时,会先推导引力公式,再结合地球质量计算加速度。

认知工程:让AI学会「深度思考」的魔法工具箱

图片

认知工程的核心是「数据→信息→知识→智慧」的DIKW金字塔升级:

  • 传统AI:停留在数据/信息层(查资料机器)

  • 第一幕AI:达到知识层(会整理知识的图书管理员)

  • 第二幕AI:冲击智慧层(像教授一样创造新知

这里有个关键公式:
y ∼ M(·|q,g,φ)
(输出=问题×生成器×搜索策略
相当于给AI装上了「思维导航系统」,在回答时自动规划最优推理路径

测试时扩展四板斧:AI如何像人类一样「多想几步」

图片

论文总结了四大核心方法:

  1. 并行采样:让AI「多写几版草稿」,选最优答案(类似考试检查多遍

    图片

  2. 树状搜索:像下棋推演般探索所有可能路径(AlphaGo同款技术)

    图片

  3. 多轮修正AI版「三省吾身」,通过自我批判改进答案

    图片

  4. 长链推理生成包含反思、回溯的完整思考过程

    图片

举个编程题例子🌰:当AI遇到bug时,长链推理会先写代码→运行报错→检查日志→回溯问题→修改代码,整个过程可能生成上千字的思考记录。

实战攻略:如何训练一个会「自我纠错」的AI应用

图片

训练这样的AI需要两板斧:

  • 强化学习:设置「数学题得分」作为奖励,让AI在试错中进化

  • 监督微调:用学霸的解题笔记(含详细步骤)当教材

关键技巧:
效率 = f(计算预算, 方法)/计算预算
这个公式指导开发者平衡计算成本与效果。就像教孩子做题,既不能「题海战术」耗光耐心,也不能「只讲一遍」草草了事

未来已来:AI科学家、编程大师与安全卫士的崛起

图片

应用案例已经遍地开花:

  • 数学领域:DeepSeek-R1在美国数学邀请赛(AIME)拿到79.8分,接近人类顶尖选手

  • 编程领域:AI在Codeforces竞赛中斩获金牌,能处理真实世界的复杂代码任务

  • 安全领域:通过「思维链审核」自动检测有害内容,准确率比传统方法提升37%

最令人期待的是「科研加速」——AI正在生物制药、材料科学等领域辅助人类突破认知边界,像「超级科研助手」般同时追踪千条研究线索。

一共76页论文,一定要阅读原文哈!

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

强化学习曾小健

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值