在接触大语言模型之初,就一直有听到Agent这个词,自己上网查了下,大概就是一个智能代理的角色,能执行一些大模型无法执行的任务,所以也没有太在意细节。直到最近给公司培训大语言模型的相关知识,有同事提出关于Agent的问题,才发现自己对这个概念真的只是一知半解。回想起当天的解释确实过太简单片面,估计同事也没有真正搞懂,所以打算回炉重造,重新学习相关知识,在此尽量用通俗易懂的语言做一个知识解释,弥补当天的遗憾。
ChatGPT的缺陷
我们还是从ChatGPT说起,虽然它对自然语言的理解以及知识的丰富程度足以让任何初次使用它的人感到惊艳,算得上新一代人工智能的典范,但是仍然有明显的缺陷。
在笔者看来,最为严重和遗憾的是,在很多场景中,ChatGPT就像是缸中之脑(只是借用这个名词,和背后的哲学含义无关),它明明拥有着巨量的知识和有史以来最为出色的语言理解能力,但是除了内容生成这类通用功能外,似乎不知道他在其他领域还能做什么?本质原因是他没有办法和外界进行交互,换言之即干涉现实。就好比一个满载知识的大脑被封印在了充满营养液的缸子中,对外界环境无法产生作用,这个大脑的潜能自然没有办法完全展示出来。
大模型需要将具体的现实场景结合起来,才能发挥它的真正作用。但是孤立的大模型肯定不行,因为它只有知识(还是有限的),而没有执行能力,所以我们需要赋予大模型与现实交互的能力,就好比将缸中的大脑取出来,给他安上四肢,去现实中大展身手。
为了解决上述一系列缺陷,真正的“放飞”大模型,研究人员提出了一个新的解决方案,即Agent框架。
Agent是什么
在大模型的语境下,“Agent”可以被理解为一个能够自主理解、规划决策和执行复杂任务的系统。它不仅告诉你“如何做”,而且可以通过一系列的推理和决策来帮助你实现目标。实际上,它甚至可以充当指挥官的角色,来协调和编排其他功能插件,以完成你下达的指令。在这种角色中,Agent变得更加智能和灵活,可以更好地适应不同环境和任务的要求。
举个例子,我们可以把大模型想象成一个聪明绝顶的人类,他博古通今,无所不知,可以和你谈笑风生。但是如果你饿了想让它为你做顿饭,抱歉,他只能给你口述菜谱,因为它没有、也不会切菜和使用燃气灶。而Agent的意义就在于,当你告诉他你饿的时候,他会立马get到你的意图,然后为你筹划你的晚餐:它可以从记忆中获取你的口味偏好决定晚饭吃什么,然后生成一套完整的做饭计划,线上买菜、洗菜、切菜、下锅……直到最后将香喷喷的饭菜端到你的面前。
通过上面的举例,我们其实可以用一个公式来说明Agent的含义,即:
Agent = 大语言模型(LLM) + 规划能力(Planning) + 工具(Tool) + 记忆(Memory)
大语言模型:即用来获取、感知、理解指令的载体,可以理解为“大脑”,是Agent的核心部件,如示例中从收到“饿了”的指令到最终上菜的一系列决策都是大语言模型发出的。
规划能力:可以将复杂的任务分解为多个较小的、可管理的子目标,以便高效的处理复杂任务,如示例中将做晚饭分为买、切、洗、炒等多个过程。
工具:通过调用外部 API,以获取模型本身不具备的能力,如示例中可以调用外卖app实现线上买菜到家。
记忆:通过上下文的学习获取短期记忆或通过外部存储与检索实现的长期记忆。如示例中可以根据“你”的历史对话信息快速检索到你的口味偏好。
Agent的种类
Agent存在的形式可以有很多种,这里笔者根据对Agent的理解,依据其功能和应用场景进行大致的划分。
首先是纯数字型Agent,这种Agent存在于虚拟环境中,不与现实的场景进行交互,有点类似于元宇宙。之前斯坦福大学开发的虚拟小镇“Smallville"就属于这种类型,里面每个居民都是一个AI agent,而不是传统意义上按照脚本进行编程的NPC,他们不只会执行初始计划,还会在出现新的事件时做出适时调整,重新制定计划并执行,形成了高度拟人化的反馈回路。未来可能会衍生出一个新的游戏,这里面的游戏人物都没有固定的剧本,却有着自己的人生。
其次,是与现实场景结合的Agent,这种Agent可能是纯数字型,也可能不是。它可以根据人的指令协调所能调用的所有工具去实现制定任务,这种Agent的应用范围非常广泛,可以涉及驾驶、监控、营销、医疗、科研等多个领域。
最后,是具备身体的机器人,与之前提到的Agent有所不同,这种机器人具有完全属于自己的外设,而前一种Agent更像是通过网络和插头等方式将多个分散的工具粘合在一起。具备身体的机器人可以通过自己的外设感知环境、执行任务和与人类进行互动。与普通的Agent相比,这种机器人可以更直接地与物理世界交互,并能够实时调整其行为和动作。
关于未来的思考
OpenAI创始成员在黑客松演讲中曾经表示,如果哪篇论文提出新的模型训练方法,他们会嗤之以鼻,因为这都是他们玩剩下的。但是当有论文提到有新的Agent出来时,他们会兴奋并认真的一起讨论。加上AutoGPT的热度,这种只需要下达一个指令就可以为你执行任务的程序引起了很多人的兴趣。
在当前人工智能快速发展的趋势下,通用型人工智能何时会问世仍然是个未知数。然而,在我看来,现在的智能体,特别是AutoGPT,最重要的意义在于向我们展示了一种可能性,即AI逻辑自洽和服务于垂直场景的能力。这种数字技术与现实世界的有效干预是人工智能走向商业应用的重要一步。当一个技术具有真正的商业场景和价值时,它才会得到更多人力和资本的追捧,进而推动技术的进一步发展,形成良性循环。
对于个人而言,也许“我们问,AI理解、AI分析、AI执行、AI验证”的时代即将到来。甚至在人工智能技术的支持下,非技术专家也有可能完成以前只有专家才能胜任的任务。这将改变我们个人和整个社会的行为范式甚至是认知。
最后,有了这种智能的Agent是否会造成大量的失业呢?我在这里不想过多的分析,未来的变量太多,但有一点可以确定:让你失业的不一定是AI,但一定会是那些会使用AI的人。