从图灵的“会思考的机器”到今天的Agent,其本质是人类试图在数字世界复刻自身的认知架构——感知、思考、行动、进化的循环。正如《西部世界》中AI觉醒的隐喻:当Agent开始主动追问“我的目标是否合理”时,真正的智能革命将拉开帷幕。
AI智能体
为什么需要Agent
一、LLMs 的局限与 Agent 的诞生
传统大语言模型(如 GPT-4)虽然具备强大的语言理解和生成能力,但存在以下关键限制,直接催生了 Agent 的需求:
1. LLMs 的核心局限
-
被动响应
LLMs 只能根据输入提示(Prompt)生成文本,无法主动拆解复杂任务。
例如:用户提问“如何开发一个天气预报 App?”时,传统 LLM 会输出步骤说明,但无法自动调用代码编辑器、API 调试工具或部署服务器。 -
缺乏长期记忆
LLMs 的对话是“无状态”的,每次交互独立处理,无法积累经验或用户偏好。
例如:用户多次要求“推荐适合徒步的景点”,LLM 不会记住用户曾偏好山地而非沙漠环境。 -
无法与环境交互
LLMs 是封闭的文本生成系统,无法调用外部工具(如搜索引擎、数据库、机器人硬件)。
例如:用户要求“分析某公司股票走势”,LLM 无法实时获取金融市场数据。 -
单次推理局限
LLMs 的回答基于单次推理,缺乏多轮验证和动态调整能力。
例如:解决数学题时,若首次推理错误,LLM 难以自我修正。
2. Agent 如何突破这些限制
通过为 LLMs 添加 “感知-规划-行动”循环架构,Agent 实现了质的跃升:
-
主动规划
将用户目标分解为任务链(如“开发 App” → 需求分析→UI设计→API调用→测试部署)。 -
记忆系统
短期记忆(对话上下文) + 长期记忆(向量数据库记录用户历史偏好)。 -
工具调用
整合代码解释器、网络搜索、专业软件(如 MATLAB)等外部能力。 -
反思优化
通过 ReAct 框架(Reasoning + Action)动态验证结果并修正错误。
二、从 CoT 到 Agent:从“纸上谈兵”到“实战推演”
链式思考(Chain-of-Thought, CoT)通过显式展示推理步骤提升了 LLMs 的复杂问题解决能力,但 Agent 进一步将其升级为 “思考+行动”的动态闭环。
一个完整的CoT形式的Prompt通常由三部分组成:指令(Instruction)、逻辑依据(Rationale)和示例(Exemplars)。
为什么使用CoT
- 提升了大模型的推理能力:通过将复杂问题拆解为简单的子问题,CoT大大增强了模型的推理能力。
- 提高了模型的可解释性:与单纯输出结果的模型相比,CoT可以展示模型的解题过程,帮助我们更好地理解模型是如何工作的。
- 增强了模型的可控性:CoT让模型一步步展示解题步骤,我们通过观察这些步骤可以更大程度地影响模型的问题解决过程,避免模型成为无法控制的“完全黑盒”。
- 提升了模型的灵活性:只需添加一句“Let’s think step by step”,CoT方法便可在各种大型模型中使用。
CoT 的局限
-
静态推理:CoT 的思考过程仅停留在文本层面,无法与环境交互验证。
-
例如:用 CoT 解数学题时,若某步计算错误,LLM 无法通过实际运算发现并纠正。
-
单次输出:生成完整推理链后即结束,缺乏迭代优化机制。
-
无工具集成:依赖纯文本推理,无法调用计算器、编程工具等。
总结:Agent 的诞生并非替代 LLMs,而是通过 “大脑(LLM)+ 手脚(工具)+ 记忆(数据库)” 的架构,将语言模型的潜力转化为真正的生产力,推动 AI 从“鹦鹉学舌”走向“知行合一”。
什么是Agent
AI 智能体(Agent)是一个能够自主感知环境、制定目标、规划行动并执行任务的智能系统。它不仅仅是一个被动响应指令的模型,而是具备主动性和决策能力的实体,能够像人类一样与环境交互,完成复杂任务。
AI Agent智能体,通常具备以下特点:
- 自主性: AI Agent能够自主决策和执行任务,无需人类干预。
- 适应性: 能够根据环境变化调整自己的行为。
- 交互性: 能够与人类或其他AI Agent进行交流与合作。
- 学习能力: 通过学习不断优化自己的行为和决策。
大模型Agent由规划、记忆、工具与行动四大关键部分组成,分别负责任务拆解与策略评估、信息存储与回忆、环境感知与决策辅助、以及将思维转化为实际行动。
- 规划(Planning):
- 定义:规划是Agent的思维模型,负责拆解复杂任务为可执行的子任务,并评估执行策略。
- 实现方式:通过大模型提示工程(如ReAct、CoT推理模式)实现,使Agent能够精准拆解任务,分步解决。
- 记忆(Memory):
- 定义:记忆即信息存储与回忆,包括短期记忆和长期记忆。
- 实现方式:短期记忆用于存储会话上下文,支持多轮对话;长期记忆则存储用户特征、业务数据等,通常通过向量数据库等技术实现快速存取。
- 工具(Tools):
- 定义:工具是Agent感知环境、执行决策的辅助手段,如API调用、插件扩展等。
- 实现方式:通过接入外部工具(如API、插件)扩展Agent的能力,如ChatPDF解析文档、Midjourney文生图等。
- 行动(Action):
- 定义:行动是Agent将规划与记忆转化为具体输出的过程,包括与外部环境的互动或工具调用。
- 实现方式:Agent根据规划与记忆执行具体行动,如智能客服回复、查询天气预报、AI机器人抓起物体等。
Agents 与 LLMs 的区别:
维度 | LLMs | Agent | 意义 |
---|---|---|---|
任务处理 | 被动响应单次输入 | 主动规划多步骤任务流 | 解决复杂现实问题(如项目管理) |
知识边界 | 依赖预训练静态知识 | 通过工具调用实时扩展能力 | 突破模型“幻觉”,获取最新信息 |
交互方式 | 文本输入/输出 | 多模态感知与行动(语音/图像/机器人控制) | 融入物理世界(如自动驾驶) |
进化机制 | 固定权重,无法持续学习 | 长期记忆+经验积累 | 个性化服务(如医疗诊断助手) |
Agents的运作机制:从输入到输出
- 接收输入: 接收用户的指令或问题。
- 理解输入: 模型理解用户的意图,并提取关键信息。
- 推理规划: 模型根据用户输入和当前状态,进行推理和规划,确定下一步行动。
- 选择工具: 模型根据目标选择合适的工具。
- 执行行动: Agent使用工具执行行动,例如查询数据库、发送邮件等。
- 获取结果: Agent获取工具执行的结果。
- 输出结果: Agent将结果输出给用户,或进行下一步行动。
智能体的典型架构
-
核心处理器:大模型(如 GPT-4、Claude)负责推理和决策。
-
记忆模块:短期记忆(对话上下文)+ 长期记忆(向量数据库)。
-
工具集:搜索引擎、代码解释器、专业API等。
-
反思机制:通过自我评估(Self-Critique)优化行动方案。
-
安全护栏:防止越权操作或有害行为。
应用场景
-
自动化助手
- 自动处理邮件、安排会议、生成周报(如AutoGPT)。
-
科研代理
- 阅读文献、设计实验、调用仿真工具(如ChemCrow化学研究Agent)。
-
游戏NPC
- 具备个性、记忆和长期目标(如《斯坦福小镇》AI角色)。
-
商业决策
- 分析市场数据、预测趋势、生成运营策略。
Agent使用建议
在构建LLM应用程序时,建议寻找尽可能简单的解决方案,并只在需要时增加复杂性。这可能意味着根本不构建代理系统。代理系统通常为了更好的任务性能而延迟和消耗成本,需要考虑权衡这是否有意义。
当需要更多的复杂性时,工作流为定义明确的任务提供了可预测性和一致性,而当需要大规模的灵活性和模型驱动的决策制定时,Agent是更好的选择。然而,对于许多应用程序来说,优化单个LLM调用,配合检索和上下文示例通常就足够了。
我们建议开发者首先直接使用LLM API:许多常用的模式只需几行代码就能实现。如果确实想要使用框架,需确保理解底层代码。对底层内容的错误假设是客户出错的常见来源。
Agent构建指南
下面是官方文档《Claude Agent构建指南》给出的一些示例
地址:https://www.anthropic.com/engineering/building-effective-agents
构建块:增强的 LLM
代理系统的基本构建块是通过检索、工具和内存等增强功能增强的 LLM。我们当前的模型可以主动使用这些功能 — 生成自己的搜索查询、选择适当的工具并确定要保留的信息。
我们建议关注实施的两个关键方面:根据您的特定使用案例定制这些功能,并确保它们为您的 LLM 提供简单、文档齐全的接口。虽然有很多方法可以实现这些增强,但一种方法是通过我们最近发布的 Model Context Protocol,它允许开发人员通过简单的客户端实现与不断增长的第三方工具生态系统集成。
在本文的其余部分,我们将假设每个 LLM 调用都可以访问这些增强的功能。
工作流:提示链接
提示链接将任务分解为一系列步骤,其中每个 LLM 调用都会处理前一个调用的输出。您可以在任何中间步骤中添加编程检查(请参阅下图中的“gate”),以确保流程按预期进行。
- 适用场景:此工作流非常适合任务可以轻松目清晰地分解为固定子任务的场景。主要目的是通过使每个LLM调用变得更容易,在回复速度和更高的准确性之间进行取舍。
- 提示链适用示例:
- 生成营销文案,然后将其翻译成不同的语言。
- 编写文档的大纲,检查大纲是否符合某些标准,然后根据大纲编写文档。
代理
随着LLM在理解复杂输入、进行推理和规划、使用工具及从错误中纠错等关键能力的成熟,代理开始在生产中兴起。
代理工作的开始,来自人类用户的命令,或与人类用户进行互动讨论。一旦任务明确,代理就会独立规划和行动,可能需要反问人类,来获取更多信息或判断。在执行过程中,对于代理来说,每一步从环境中获得 “真实情况” (例如工具调用结果或代码执行)以评估其进度至关重要。然后,代理可以在遇到阻碍时暂停以获取人类反馈。任务通常在完成时终止,但也常常包括终止条件(例如最大迭代次数)以保持控制。
代理可以处理复杂的任务,但它们的实现通常很简单。它们通常只是根据环境反馈在循环中使用工具的LLM。因此,设计周全旦清晰的工具集和文档至关重要。
- 适用场景:代理可用于难以或无法预测所需的步骤数量,并且无法规定好固定路径的开放式问题。LLM可能会运行多个循环,你必须对其决策能力有一定程度的信任感。代理的自主性使其成为在受信任环境中执行任务时特别理想,代理的自主性质意味着成本更高,并且有可能出现不断积累的错误。建议在沙合环境中进行广泛的测试,并识置适当的安全防护。
- 适用示例:以下是我们自己的实现中的一些示例:
- 一个编码代理,用于解决SWE-bench任务 ,这些任务涉及根据任务描述对多个文件进行编辑,。
- “计算机使用"参考手册 ,其中Claude使用一个计算机来完成任务。
常见的框架
LangGraph
-
定位:LangChain生态的扩展工具,专注于构建有状态的多参与者(Multi-Agent)协作系统。
-
核心能力:
-
通过图结构(Graph)定义Agent协作流程,支持循环、分支、并行等复杂逻辑
-
与LangChain工具链深度集成(如RAG、工具调用)
-
内置对话状态管理和记忆持久化
-
-
典型场景:供应链协同优化、多角色游戏NPC系统
CrewAI
-
定位:轻量级多Agent任务编排框架,主打“任务驱动型协作”。
-
核心能力:
-
通过自然语言定义Agent角色(如“产品经理”“工程师”)
-
自动分配子任务并监督执行
-
内置冲突解决机制(基于投票或权威角色裁决)
-
-
典型场景:内容生产团队(撰稿+审核+发布)、敏捷开发流程模拟
https://www.crewai.com/open-source
https://github.com/crewAIInc/crewAI
Microsoft AutoGen
-
定位:微软开源的多Agent对话编程框架,强调“人-Agent协同”。
-
核心能力:
-
支持混合触发模式(自动执行+人工介入)
-
内置LLM推理优化(如压缩重复对话历史)
-
提供GUI界面实时监控Agent协作
-
-
典型场景:智能客服升级(自动应答+人工接管)、教育领域的人机协作学习
https://microsoft.github.io/autogen/0.2/docs/Getting-Started/
https://github.com/microsoft/autogen
Dify
-
定位:低代码Agent开发平台,主打“可视化工作流设计”。
-
核心能力:
-
拖拽式界面连接LLM、工具和数据库
-
自动化生成OpenAPI接口
-
内置A/B测试和版本管理
-
-
典型场景:企业内部知识助手、电商个性化推荐系统
MetaGPT
-
定位:标准化Agent开发框架,目标“用Agent模拟软件公司运作”。
-
核心能力:
-
预定义角色模板(产品经理/架构师/工程师等)
-
强制标准化输出(如生成PRD文档、UML图、API规范)
-
基于成本的资源调度(模拟“人力”分配)
-
-
典型场景:自动化生成MVP产品代码、技术方案竞标辅助
https://docs.deepwisdom.ai/v0.7/zh/guide/get_started/quickstart.html
https://github.com/geekan/MetaGPT
OpenAI Swarm
-
定位:基于OpenAI技术的分布式多智能体框架(注:截至2024年,OpenAI未官方发布同名产品,此处假设为类似GPT群控系统)。
-
核心特性:
-
多GPT实例协作(角色分工、知识共享)
-
动态负载均衡(自动分配任务至空闲实例)
-
支持联邦学习(聚合各实例经验更新模型)
-
-
典型场景:大规模内容审核,分布式科研分析,实时舆情监控