一文读懂火爆的AI Agent（智能体）

BuluAI

已于 2024-07-29 10:18:34 修改

阅读量1.3k

点赞数 24

文章标签：人工智能

于 2024-07-26 10:41:02 首次发布

本文链接：https://blog.csdn.net/BuluAI/article/details/140709311

版权

AI Agent以各种形态存在于我们生活的方方面面，大众比较熟知的有Siri、小爱同学等虚拟助手，但其实在自动驾驶、教育、娱乐、医疗、科研、智能家居等等到处都有它们的身影。

AI Agent的热潮始于2023年3月左右，彼时很大程度上得益于诸如GPT-4等大语言模型（LLMs）的突破性进展，再加上一些开源框架和工具的出现，如AutoGPT，进一步降低了开发AI Agent的技术门槛，使得开发者能够更容易地构建和部署自己的AI Agent。所以，AI Agent得以快速发展和应用。

比尔・盖茨曾表示

AI Agent是AI的未来，并预言不久的将来，所有人都将拥有自己专属的AI助理。

今天就让我们来看看，到底什么是AI agent？它的工作原理是什么？未来发展怎样？

到底什么是AI agent？

业界对AI agent的定义各不相同，更广泛被使用的一种定义是：一种能够感知环境、进行决策和执行动作的智能实体。而站在软件工程的角度看来，AI agent（智能体）是一种基于大语言模型（LLM）的，具备规划思考能力、记忆能力、使用工具函数的能力，能自主完成给定任务的计算机程序。

我们再拆开这个词来帮助理解：“agent”中文意思是代理人，可以单纯理解为有人帮你去做某件事。那么，AI agent简单来说，就是一个由AI技术加持的代理人，它变得更聪明了，可以感知周围的环境，并且能够独立地思考和行动。

举个简单例子，我们现在常用的一些聊天机器人文心一言、Kimi Chat等，需要一直告诉它要做什么，但是更聪明的AI agent不一样，我们只要给它一个目标，它就能想办法自动帮你完成。

比如，智能家居系统中的智能恒温器，可以通过传感器检测室内外的温度变化，还可以学习你的生活习惯和偏好——你通常什么时间段在家，在什么时间段你更倾向于较冷或较暖的环境，据此来自动调整加热或冷却计划，以确保室内温度保持在舒适的范围内。整个过程无需给它明确的指令。

相较于传统的、静态的人工智能，AI agent具有几个显著的特点：

1、自主性：AI Agent具有独立思考和行动的能力，能够在没有人类直接指导的情况下完成任务。

2、交互性：AI Agent能够与环境或其他Agent进行交互，这通常用于游戏、对话系统、推荐系统等场景。

3、目的性：AI Agent设计有明确的目标或意图，它们的行为是为了实现这些目标。

4、适应性：AI Agent能够根据环境的变化调整自己的行为，以适应新的情境。

5、进化性：随着技术的发展，AI Agent的功能和智能水平也在不断提升。

复旦大学自然语言处理团队在推出的LLM-based Agents 综述论文中，用一个例子来说明了LLM-based Agent的工作流程：当人类询问是否会下雨时，感知端（Perception）将指令转换为 LLMs 可以理解的表示。然后控制端（Brain）开始根据当前天气和互联网上的天气预报进行推理和行动规划。最后，行动端（Action）做出响应并将雨伞递给人类。

不难看出，在以大语言模型（LLM）为基础的AI agent中，LLM充当agent大脑的角色，并与若干关键组件协作。

可以用一个公式概括AI Agent的主要组成部分：AI Agent = LLM（大语言模型推理能力）+ Planning（规划能力）+ Memory（记忆能力）+ Tools（使用工具能力）+ Action（行动能力）。

AI agent的工作原理

AI agent的工作原理主要包括四部分：感知、信息处理、执行、输出。

1.感知

感知是第一步，AI通过传感器、摄像头、麦克风这些外部设备（感知端）来感知周围的世界。

--任务理解: 当用户提出问题“是否会下雨”时，这句话会被麦克风捕捉到，它首先需要理解这个问题的意思以及背后的意图。

--指令转换: 感知端将用户的自然语言问题转换成LLM能够理解和处理的结构化形式或表示。

--输入数据准备: 感知端还可能需要收集相关的外部信息，例如当前位置、日期和时间等，以便LLM能够获取最新的天气数据。

2. 信息处理

--知识获取：控制端（Brain）开始利用大型语言模型（LLMs）的能力，从互联网上检索相关的天气预报信息，包括当前天气状况、未来预测等。

--推理与规划：LLMs根据收集到的信息进行推理，确定是否有可能下雨，并基于这种可能性制定行动计划。

--决策：如果预测显示有较高的降雨概率，则决定应该提醒用户带雨伞；反之，则建议无需携带雨伞。

3. 执行

--行动规划：在确定了行动计划后，执行端（Action）开始规划如何实施这一计划，例如通过物理动作或者通过发送通知的形式。

--资源调度：如果Agent有能力直接采取物理行动，比如机器人手臂，那么它需要调动相应的硬件资源来完成任务。

--执行动作：执行端根据规划执行具体的动作，如移动到雨伞存放的位置并拿起雨伞递给用户。

4. 输出

--响应生成：执行端生成一个明确的响应，告诉用户是否会下雨，并给出相应的建议或行动；

--用户交互：如果是通过对话形式，那么Agent会告知用户预测结果，并提醒用户是否需要带伞；

--完成任务：最终，Agent将雨伞递给用户，完成任务。

所以，一个完整的AI Agent（智能体），好比人类和周围环境互动的过程，它由两部分组成：一部分是智能体自己，另一部分是它所在的环境。

AI agent未来发展

目前Agent技术还不是完全成熟，发展也面临一些瓶颈，比如：

技术方面，LLM模型仍然不够强大，即使是用很强大的GPT4在AI Agent应用时，仍然面临上下文容量有限，限制了历史信息、详细说明、API 调用上下文和响应；长期规划和有效探索解决方案空间仍然具有挑战性。另外，在遇到意外错误时LLM很难调整计划，这使得它们与人类相比（从试错中学习）不太稳健等。

其次，就是成本太高了，尤其是多智能体，因为其需要记忆和行动的思考量非常大。

还有就是现阶段在很多场景，使用AI Agent还看不到非常大的提升，或者说能覆盖增加成本的提升。

可以说，现阶段大部分AI Agent技术/平台还都处于研究阶段，现在一些比较固定的工作流程，或者有详细标准SOP的程序，都在封闭环境下进行。

但是随着大模型的百花齐放，LLM 会支持更长的上下文、更大的参数规模，其推理能力也会愈发强大。因此，基于大模型搭建的AI Agent（智能体）的能力边界也在不断突破。相信在未来，AI Agent可以被应用于广泛的领域，成为各个行业的基础支撑。

BuluAI是一个创新型的算力云平台，算力使用灵活，可为开发者提供强大计算资源和全面支持。帮助BuluAI的使用者能够更专注于技术、应用的研究和优化。产品预计9月份正式公测上线，敬请期待！

现可报名参与内测，届时可免费使用算力，内侧入口：BuluAI

BuluAI

关注

24
点赞
踩
13

收藏

觉得还不错? 一键收藏
0
评论
一文读懂火爆的AI Agent（智能体）

随着大模型的百花齐放，LLM 会支持更长的上下文、更大的参数规模，其推理能力也会愈发强大。因此，基于大模型搭建的AI Agent（智能体）的能力边界也在不断突破。相信在未来，AI Agent可以被应用于广泛的领域，成为各个行业的基础支撑。
复制链接

扫一扫