李宏毅 GENERATIVE AI——第9讲（4/22下）——以大型语言模型打造的AI Agent

笨笨sg

已于 2024-12-05 21:00:48 修改

阅读量853

点赞数 17

分类专栏：李宏毅——GENERATIVE AI 文章标签：李宏毅 GENERATIVE AI 第9讲（4/22下）

于 2024-12-02 15:10:51 首次发布

本文链接：https://blog.csdn.net/a131529/article/details/144188411

版权

李宏毅——GENERATIVE AI 专栏收录该内容

36 篇文章

订阅专栏

0 完整章节内容

本文为李宏毅学习笔记——2024春《GENERATIVE AI》篇——“第9讲”章节的课堂笔记，完整内容参见：

李宏毅学习笔记——2024春《GENERATIVE AI》篇

本章节主要介绍“以大型语言模型打造的AI Agent”。

1 今日多数人使用AI的方式

在今天的讨论中，我们谈到的是如何利用大型语言模型（如GPT）来构建AI代理。当前，使用AI的场景通常是让AI执行单一的任务。

例如，若你想要翻译一句话，你只需要提供原句，GPT就会给出翻译结果；

如果你希望通过GPT绘制图像，你可以要求它画图，它就会调用DALL·E来生成图像。这个过程大多是一步到位的，用户输入任务，AI完成输出。

2 未来人类对AI的期待

今天的讨论重点是如何让AI执行多步骤的复杂任务。举个例子，假设我要举办朋友间的聚餐，这个任务包含多个步骤：首先需要调查大家的空闲时间，然后根据调查结果选择餐厅，并进行预订。如果餐厅没有位置，还需要查询其他餐厅并进行调整。这些步骤需要有序进行，并且在执行过程中，计划可能会发生变化。

今天的AI大多只能执行单一的任务，但如果AI能够像人类一样规划任务并应对变化，那么它就能成为一个“AI agent”。这个AI agent不仅能执行计划，还能在执行过程中做出调整和修正。目前，虽然不一定每个AI都有这种能力，但借助大型语言模型，我们有可能在不久的将来看到这样的AI agent出现在日常生活中，能够处理类似上述的复杂任务，包括做计划、调整计划和使用工具来执行任务。

3 AI Agent的一些例子

下面是几种现有的AI agent，其中最知名的可能是AutoGPT。AutoGPT能够接受任务指令，比如“帮我做个网页”，然后它会自动进行任务执行，可能会上网搜索、使用工具、进行自我反思等。然而，尽管AutoGPT具有一定的能力，但它并不总是能够成功完成任务。有些用户曾给它指令，放任其自行操作，结果可能会花费大量时间而没有任何成果，甚至在某些情况下，造成资源浪费。

AutoGPT虽然曾一度非常流行，但它也展示了语言模型在处理复杂任务时的局限性。今天的语言模型仍然有一些能力的极限，尤其是当它们被要求自行解决复杂任务时。然而，AI agent的概念仍然代表着未来的趋势。未来，语言模型可能不再局限于一问一答的模式，而是能够自主与环境互动、思考并最终解决问题。

3.1 由AI村民组成的虚拟村庄

其中最知名的一个例子是由AI村民构成的“STANFORD小镇”，这个之前我们也有提到过：

让 AI 村民组成虚拟村庄会发生什么事？——GENERATIVE AI——拓展内容（第5讲）-CSDN博客

3.2 会自己玩Minecraft的AI

除此之外，还有让AI在Minecraft中进行自我探索和学习。比如，在《Voyager》论文中，AI通过不断的探索，学会了使用木质工具、十字工具、铁器工具，并最终学会打造钻石剑。随着学习的不断积累，AI变得越来越强，能够完成更多任务。这展示了AI在虚拟世界中的自我学习能力。

3.3 由语言模型操控的机器人

此外，还有AI与物理世界互动的例子。例如，Figure One是一个能够接受指令并执行任务的机器人，背后依赖语言模型来进行操作。通过语言模型，机器人能够执行复杂的任务，如清理桌子或拿东西。

不过，值得注意的是，使用语言模型来操控机器人并不是新鲜的概念。早在2022年，就有论文《Inner Monologue》提出了语言模型与机器人结合的思路，机器人通过语言模型接受指令并自主思考解决问题的过程。

下面是完整的demo视频：

Inner Monologue