李飞飞 2024 年巨作《AI Agent》综述，我和 AI 协作拆解后，这才是通往 AGI 之路

最新推荐文章于 2025-04-19 11:27:57 发布

程序猿李巡天

最新推荐文章于 2025-04-19 11:27:57 发布

阅读量7.8k

点赞数 24

文章标签：人工智能 agi 知识图谱语言模型 chatgpt 金融

本文链接：https://blog.csdn.net/m0_59235945/article/details/144110837

版权

AI 领域的绝顶，李飞飞大神巨作《AI Agent》综述最近发表

看过后，我真的被震撼得说不出话

这篇论文是由李飞飞等 14 位来自斯坦福、

哈佛、加州大学顶尖学者联合创作。

从基础模型，到多模态模型在物理和虚拟环境

中交互的未来发展理论

多模态 AI 系统在日常生活中的应用前景和实现方法。

讲人话，就是这篇文章为通往 AGI 之路打开天宫一角。

未来 AGI 的技术实现框架

原文： Agent AI 系统的概述，该系统可以在不同领域和应用中进行感知和行动。Agent AI 正逐渐成为迈向通用人工智能（AGI）的一条有前景的途径。Agent AI 的训练展示了其在物理世界中实现多模态理解的能力。通过利用生成式 AI 和多个独立的数据源，该系统提供了一个与现实无关的训练框架。在跨现实数据的训练下，大型基础模型可以应用于物理和虚拟世界中的代理及动作相关任务。我们展示了一个能够在不同领域和应用中感知和行动的 Agent AI 系统的总体概览，并展望其作为一种基于代理范式的 AGI 发展路径。

原文本质精华

Agent AI 系统架构

不懂有 AI

什么意思？

我让 AI 去理解：

是不是还是不懂？

把以上理解输入到小觉醒思维可视化助理，

用数字感知到物理感知的知到，到知行。

原图，
包含的三个层面

系统应用层也是输入层：

论文系统核心技术包括：

基础科学来源：

原文的愿景

原文：

为了加速基于代理的多模态智能研究，我们将“Agent AI”定义为一类能够感知视觉刺激、语言输入和其他与环境相关的数据，并能够生成有意义的具身动作的交互系统。特别是，我们探讨了通过整合外部知识、多感官输入和人类反馈，提升代理基于下一步具身动作预测的系统。我们认为，通过在有依据的环境中开发具身 AI 系统，可以减轻大型基础模型产生的“幻觉”以及生成不符合环境的输出的倾向。新兴的 Agent AI 领域涵盖了多模态交互中更广泛的具身和代理层面。除了物理世界中的代理行动和交互之外，我们还设想一个未来，人们可以轻松创建任何虚拟现实或模拟场景，并与其中具身的代理互动。

什么意思？

未来 Agent Al 具身智能系统可以不用需要等着我们输入信息或者数据，

而是通过对环境，场景识别，

实现，自我学习，内化，识别，反馈，执行。

关键词：

未来的 Agent AI 系统：

由单一模态到整合多模态输入的智能系统

具身性：

之前只是通过输入文本到对话框，我们实现与 AI 交互

就是我们经常说的，Input 到 output 环节

未来，强调与环境（物理世界）的实际交互，比如机器人

多模态：

之前是语言模型，比如 GPT

绘画模型，比如 MJ

视频模型，比如可灵，海螺

未来是，集成到一起

视觉、语言等多种感知通道，

幻觉问题：

大模型常见的不实输出，就我们平常所说一本正经胡说八道

未来，

具身交互可能是解决"幻觉"问题的关键

因为环境提供了真实约束…

整体愿景：

朝向一个可以在物理和虚拟环境中自然交互的 AI

这暗示了一个重要转变…

我看到一个关键点：

具身性不仅是功能特征，更是解决 AI 可靠性的方法

环境约束作为一种"现实检验"机制…

这让我想到一个更深层的含义：

这可能代表了 AI 从"知道"到"做到"的范式转变

从信息处理到实际交互的质的飞跃

就是，AGI 可以不用再等着我们人类输入信息，训练数据

而是，通过主动学习，实现知行合一。

比如：

之前 AI 通过数据化的符号，来进行信息预测补全

参考：

未来，是他懂了规则后的推导。

这就是我们古人所说的，道或者就是说的宇宙规律吧。

认知结构转变：

AGI=AI 知行合一？

如何学习大模型 AI ？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述