【2025版】最新构建 AI Agent,零基础入门到精通,收藏这一篇就够了

在硅谷一些技术大牛的访谈中,他们常提到 AI Agent 是“通往 AGI 的道路”(The road to AGI)。

早在之前,我曾制作过一个关于 AI Agent 的分享 Deck。正好在 20 号,Anthropic 发布了一篇题为《Building Effective Agents》的文章(https://www.anthropic.com/research/building-effective-agents)。今天就结合我之前的积累和这篇文章,一起梳理一下 AI Agent 的构建指南。

概念说明

下图是今年李飞飞与微软实验室团队在一篇论文中的内容截图,描述了 AI Agent 的基本概念和框架。以下为参考文献链接:https://www.microsoft.com/en-us/research/project/agent-ai/

对比:人类与基于 LLM 的智能代理

资料来源:https://arxiv.org/pdf/2309.07864

功能模块人类AI 智能代理
感知(Perception)利用感官(视觉、听觉等)获取信息并进行认知处理多模态数据处理模块(文本、图像、音频)转化为 LLM 可理解的表示
大脑(Brain)通过记忆、推理和决策整合信息(经验和数据)并输出结论基于 LLM 的推理、记忆和决策功能
行动(Action)使用肢体和工具完成任务,例如递伞或做出指示调用工具或机械系统执行任务,例如生成文本或操作物理设备
反馈与迭代通过环境反馈修正认知和行动在每次交互中获取反馈,用于改进决策和后续操作

Anthropic对于Agents 的分类

Anthropic,统称为 agentic systems(智能代理系统),但从架构上对两者进行了重要区分:

  • 工作流(Workflows)

  • 通过预定义的代码路径协调 LLM(大语言模型)和工具的运行。

  • 其行为是可预测的,受既定逻辑约束。

  • 智能代理(Agents)

  • 系统中 LLM 能够动态指挥自身的流程,决定如何使用工具完成任务。

  • 智能代理具有更大的灵活性和适应性,对任务执行方式拥有更高的控制权。

什么时候用 Agents

在使用 LLM 构建应用时,建议尽量选择最简单的解决方案,仅在确有需要时增加复杂性。这意味着,有时甚至不需要构建智能代理系统。智能代理系统通常以更高的延迟和成本换取更好的任务性能,因此需要根据实际需求权衡这些取舍。

  1. 优先选择简单解决方案
  • 对于大多数应用,优化单次 LLM 调用、结合检索机制或上下文示例,通常已经足够。
  1. 工作流的适用场景
  • 当任务明确、规则固定时,工作流(Workflow)提供了更高的可预测性和一致性。
  1. 智能代理的适用场景
  • 当需要在大规模场景中实现灵活性和基于模型的动态决策时,智能代理(Agent) 是更好的选择。

实现方式

以下内容基于去年看到的一张图《A Basic AI Agent》整理而成,来源:https://lilianweng.github.io/posts/2023-06-23-agent/

1. Agent(智能代理)

核心部分是一个大语言模型(LLM),结合以下关键能力:

  • Planning(计划):基于当前目标和环境,制定行动策略。

  • Feedback(反馈):不断根据执行结果调整策略,改进行为。

  • Tool Use(工具使用):借助各种工具完成特定任务。

2. Memory(记忆力)

记忆力帮助智能代理更智能地工作,并实现任务的递归优化。

  • 短期记忆 (Short-term Memory):

  • 存储当前上下文,通常依赖于 LLM 的 token 窗口大小。

  • 长期记忆 (Long-term Memory):

  • RAG(Retrieval-Augmented Generation): 通过检索机制从知识库中提取相关信息。

  • 历史记录:记录长期交互日志,为未来的计划或反思提供参考。

记忆的作用:

  1. 调整计划:根据过去的经验优化当前策略。

  2. 进行反思:识别错误并总结成功经验。

3. Planning(计划模块)

计划能力分为以下几个子功能:

  • Reflection(反思):检查目标和执行策略的合理性。

  • Self-Critics(自我批判):主动寻找行动或计划中的问题。

  • Chain of Thoughts(链式思维):通过逐步推理,解决复杂问题。

  • Subgoal Decomposition(子目标分解):将复杂任务分解为可执行的子任务。

AI 狼人杀为例(此前已分享:用 LLM 的 Agent 来玩狼人杀),通过Planning 的各个模块的持续优化,LLM 能更好地理解游戏逻辑和策略,表现得更聪明。

4. Tools(工具)

工具扩展了智能代理的功能,使其可以解决超出 LLM 自身能力范围的问题:

  • Calculator(计算器):执行数学运算。

  • Code Interpreter(代码解释器):分析和运行代码,处理复杂编程任务。

  • Search(搜索):获取实时信息或验证现有知识。

  • API 调用:通过调用外部服务获取结果。

工具的使用:使智能代理能够在真实世界中更高效地行动。

5. Action(行动)

智能代理的行动方式包括:

  1. 直接行动:根据计划执行策略。

  2. 借助工具行动:工具作为智能代理的“延伸”,帮助完成复杂或技术性的任务。

Reflection(反思)

反思(Reflection) 是智能代理的重要环节,通过对执行行为的反思与调整,提升系统的智能化水平和适应能力。以下内容结合https://lilianweng.github.io/posts/2023-06-23-agent/ 展开说明。

核心结构和功能
  1. Self-reflection(自反模块,LM)
  • 自我检查:分析自身执行的准确性和效率。

  • 元认知:通过“反思”改进执行策略和长期决策。

  • 通过分析外部和内部反馈,生成反思文本(Reflective text),为后续行为提供调整依据。

  • 自反能力使智能代理能够评估其自身行为和决策逻辑。

  • 作用:

  • 特性:

  1. Trajectory(短期记忆)
  • 快速适应环境中的动态变化。

  • 提供行为执行中的上下文数据。

  • 存储近期观察(Obs)和奖励(Reward)轨迹,为评估器和行为模块提供实时参考。

  • 作用:

  • 特性:

  1. Evaluator(评估器,LM)
  • 支持动态调整策略。

  • 与自反模块交互,为长期改进提供数据支持。

  • 对短期记忆中的轨迹进行分析,结合外部反馈(External feedback)生成内部反馈。

  • 确保行为与目标一致,识别潜在的问题和优化点。

  • 作用:

  • 特性:

  1. Actor(执行模块,LM)
  • 行为动态调整,能够适应环境反馈。

  • 直接影响环境(Environment)。

  • 根据计划和反馈执行具体的行动。

  • 作用:

  • 特性:

  1. Experience(长期记忆)
  • 支持知识的累积和跨任务的泛化能力。

  • 储存过往经验和反思文本,为未来决策和行为提供历史依据。

  • 作用:

  • 特性:

系统特性
  1. 自我检查能力(Self-examination)
  • 通过反思和评估模块对行为进行动态优化。

  • 能够实时发现执行中的问题。

  1. 动态行为修改(Dynamically Modify Behavior)
  • 基于内外部反馈,调整行为模块的策略和行动。
  1. 适应性和灵活性(Adaptability and Flexibility)
  • 可根据环境变化调整计划和行动,表现出强大的灵活性。
  1. 调试与维护(Debugging and Maintenance)
  • 自反模块和评估器支持系统的自我调试,降低维护成本。

Tools(工具)

工具也展开说一下,这部分主要是Anthropic他们的经验。无论构建哪种智能代理系统,工具往往是代理的重要组成部分。工具使 Claude 能与外部服务和 API 交互,通过 API 定义其结构和功能。当 Claude 决定调用工具时,它将在 API 响应中包含一个工具调用块(Tool Use Block)。与整体提示工程类似,工具定义和规范也需要精心设计。

工具格式的设计建议

在指定工具时,往往有多种方法完成相同的操作。例如:

  • 文件编辑:可以通过写入 diff 文件或重写整个文件来实现。

  • 结构化输出:可以选择将代码嵌套在 Markdown 或 JSON 中。

虽然从软件工程角度来看,这些差异只是表面上的,可以无损转换,但对于 LLM 来说,不同格式的书写难度差异明显。例如:

  • diff 文件需要在新代码之前,提前计算出需要更改的行数。

  • 在 JSON 格式中写代码需要处理额外的转义字符(如换行符和引号)。

以下是一些选择工具格式的建议:

  1. 留出足够的 Token 空间
  • 确保模型在生成代码之前有足够的“思考”空间,避免陷入逻辑死角。
  1. 使用常见格式
  • 优先选择模型在互联网上常见的格式,增加模型的熟悉度。
  1. 减少格式化负担
  • 避免模型需要额外计算或处理复杂的格式,比如大规模行计数或字符串转义。
提升工具设计的最佳实践

就像人机交互界面(HCI)需要大量设计投入一样,智能代理与工具交互界面(ACI)也需要同样的关注。以下是一些具体建议:

1. 站在模型的视角思考

  • 工具的描述和参数是否直观?模型是否需要费力理解?

  • 提供清晰的使用示例、边界情况、输入格式要求以及工具与其他工具的明确区分。

2. 优化参数名称和描述

  • 将参数名称和描述设计得更直观,就像为团队中一位新手开发者写优秀的文档注释(docstring)。

  • 当使用多个类似工具时,这点尤为重要。

3. 测试和迭代

  • 在工作台中运行多个示例输入,观察模型使用工具时的错误,并持续改进设计。

4. 防错设计(Poka-Yoke)

  • 调整工具的参数和接口,使其更难出现使用错误。

  • 示例:在Anthropic的 SWE-bench 代理中,模型在离开根目录后,使用相对路径时容易出错。为了解决这一问题,Anthropic将工具设计为只接受绝对路径,模型使用这一方法后表现完美。

通过优化工具设计,智能代理能够更好地完成复杂任务。例如,在 SWE-bench 的实现中,Anthropic花费了更多时间优化工具,而非整体提示。这样的投入不仅提高了工具的可靠性,也提升了整个系统的易用性和精确性。

开发 Agents

可选框架

有许多框架可以帮助开发者更轻松地实现智能代理系统,包括:

  1. LangGraph (LangChain)
    提供模块化工具链,支持语言模型的功能组合,这个之前写过一系列文章:用 Langchain 写 Agents 模拟多人玩龙与地下城

  2. Amazon Bedrock 的 AI Agent 框架
    通过统一接口构建和部署智能代理。

  3. Rivet
    一个拖放式的 GUI LLM 工作流构建器。

  4. Vellum
    支持构建和测试复杂工作流的 GUI 工具。

这些框架简化了标准化的低级任务,例如调用 LLM、定义和解析工具、串联调用等,让开发者可以快速入门。但同时,它们也引入了额外的抽象层,可能掩盖底层的提示和响应逻辑,增加调试难度。此外,这些框架可能让开发者倾向于增加不必要的复杂性,而一个简单的设置往往已经足够。

开发建议

  1. 从直接使用 LLM API 开始
  • 很多模式可以通过少量代码直接实现,无需借助框架。
  1. 理解框架的底层逻辑
  • 如果使用框架,确保你了解其底层代码和工作机制。

  • 错误的假设是许多客户问题的常见来源。

基础构建模块:增强型 LLM

增强型 LLM(Augmented LLM) 是智能代理系统的基础构建模块。通过集成检索、工具和记忆等增强功能,LLM 能够主动生成搜索查询、选择合适的工具,并决定需要保留的信息。

  1. 检索(Retrieval)
  • 结合知识库或实时数据源,为任务提供最新和相关的上下文信息。

  • 示例:通过检索机制增强回答复杂问题的准确性。

  1. 工具(Tools)
  • 扩展 LLM 的能力范围,使其能够完成复杂任务。

  • 示例:调用计算器进行数学计算,或使用 API 检索实时信息。

  1. 记忆(Memory)
  • 支持短期和长期记忆,用于优化交互和任务执行。

  • 示例:保存任务上下文,帮助多轮对话中的语境理解。

在实现增强型 LLM 时重点关注以下两方面:

  1. 定制化能力
  • 根据具体的应用场景调整增强功能,使其更贴合业务需求。

  • 确保系统设计能够满足任务目标,同时避免引入不必要的复杂性。

  1. 易用性与文档化接口
  • 为 LLM 提供清晰且易用的接口,使开发者能快速理解和使用增强功能。

  • 确保所有功能的文档详尽,便于调试和维护。

增强型 LLM 为智能代理系统奠定了坚实的基础,开发者可以根据任务需求灵活扩展这些能力,从而在更广泛的场景中实现高效应用。

组合式工作流(Compositional Workflows)

以下是 LLM 应用中常见的几种工作流,帮助根据任务需求选择合适的实现方案。

1. Prompt Chaining(提示链)

将任务分解为多个步骤,每次 LLM 调用处理前一步的输出,可在中间步骤设置检查点(Gate)确保流程正确。

适用场景

  • 任务可以清晰分解为固定子任务。

  • 优先提高准确性,而非追求最低延迟。

示例

  • 生成与翻译:生成营销文案后翻译成另一种语言。

  • 文档撰写:先写提纲,检查合格后再根据提纲撰写内容。

2. Routing(路由)

通过分类输入,将任务分流到不同的后续处理路径或工具,适用于需要专门处理的任务类别。

适用场景

  • 任务类别明确,分类结果有较高准确性。

  • 每类任务需要独特的处理方式。

示例

  • 客服分流:将常见问题、退款请求、技术支持分类处理。

  • 模型选择:简单问题分配给小模型,复杂问题分配给高级模型。

3. Parallelization(并行化)

同时运行多个任务,最后聚合结果。

分为两种方式:

  • 分区(Sectioning):将任务分解为独立子任务并行处理。

  • 投票(Voting):同一任务多次运行,生成多样化输出。

适用场景

  • 子任务可并行处理以节省时间。

  • 需要多个视角提高结果准确性。

示例

  • 分区:一个模型处理用户查询,另一个负责过滤不当内容。

  • 投票:多次审查代码漏洞,确保更高的检测可靠性。

4. Orchestrator-Workers(协调器-工人)

一个中心 LLM 动态分解任务,分配给多个子 LLM 执行,并整合结果。与并行化不同,子任务由输入动态决定。

适用场景

  • 复杂任务,子任务无法预定义。

  • 需要动态调整流程的任务。

示例

  • 代码重构:根据需求动态修改多文件内容。

  • 搜索任务:整合多源信息,分析相关内容。

5. Evaluator-Optimizer(评估器-优化器)

一个 LLM 生成结果,另一个 LLM 评估反馈,循环优化,直至满意为止。

适用场景

  • 任务有明确评估标准,迭代优化有显著提升。

  • LLM 能生成有价值的反馈并进行改进。

示例

  • 文学翻译:翻译 LLM 输出后由评估器提供改进建议。

  • 复杂搜索:多轮搜索和分析,以确保信息全面。

以上工作流为不同场景提供了结构化的解决方案,帮助在任务复杂性、准确性和性能之间找到平衡。

自主智能代理(Autonomous Agents)

随着 LLM 核心能力的成熟——包括理解复杂输入、进行推理和规划、可靠使用工具以及从错误中恢复——Agents(智能代理) 正在生产环境中崭露头角。

工作方式
  1. 任务启动
  • 代理的任务开始于用户命令或与用户的交互讨论。

  • 一旦任务明确,代理便独立规划并执行任务,同时可能在需要时返回用户获取更多信息或判断。

  1. 执行过程
  • 在任务执行过程中,代理需要通过工具调用结果、代码执行反馈等,从环境中获取“真实数据”(Ground Truth)来评估任务进展。

  • 代理可以在关键点或遇到阻碍时暂停,并向用户请求反馈。

  1. 任务终止
  • 任务通常在完成后结束,但也可以设置停止条件(例如最大迭代次数)以保持控制。
特性与实现
  • 能力范围
    代理可以处理复杂任务,但实现通常相对简单,主要由 LLM 在反馈循环中根据环境调用工具完成。

  • 设计重点

  • 工具集和其文档的清晰设计至关重要,确保代理能够正确理解并使用工具。

  • 详见上文工具(“Prompt Engineering your Tools”)中的最佳实践。

Autonomous Agent(自主代理)场景应用

适用场景

  • 面对开放性问题,难以预测所需步骤,且无法硬编码固定路径时。

  • 需要代理进行多轮操作,并对其决策具备一定信任度。

  • 自主代理在可信环境中执行任务时,尤为适合大规模任务的扩展。

注意事项

  • 自主性带来的成本较高,且存在错误积累的风险。

  • 强烈建议在沙盒环境中进行广泛测试,并设置适当的防护措施(Guardrails)。

举个栗子🌰

以下是Anthropic实际实现中的两个示例,展示了智能代理的实际应用场景:

  1. Coding Agent
  • 应用场景:解决 SWE-bench 任务。这些任务需要基于任务描述对多个文件进行修改。

  • 实现方式:智能代理根据任务描述,分析代码库并规划所需的文件更改,逐步执行任务,动态调整策略以完成复杂的代码编辑需求。

  1. “Computer Use” Reference Implementation
  • 应用场景:让 Claude 使用计算机完成任务。

  • 实现方式:通过工具调用、环境交互等手段,代理能够在真实的计算环境中操作,如执行命令、检索数据或完成复杂计算任务。

代理通过自主规划和反馈机制,展现出强大的灵活性和扩展性,是应对复杂任务的重要工具,但也需要精心设计和严格测试以确保其稳定性和可靠性。

Agents 历史发展

AI Agent 的概念和技术经历了多年的发展,逐渐从理论走向实际应用。以下内容基于 https://arxiv.org/pdf/2308.11432 进行简要回顾:

AI Agent 应用

以下为部分案例与展示内容:https://x.com/omooretweets/status/1740774601876177375。这个Landscape我之前也分享过(AI Agent 应用 Market Map)。

可见,截至 2023 年,AI Agent 的应用已经覆盖了多个领域,展示了其强大的泛化能力和广泛的适用性。2024 年,随着技术的成熟,AI Agent 的应用场景更加多元化,等我回头整理整理。

最近 Anthropic 也给出了今年的示例:

通过与客户的合作,Anthropic发现两类应用场景特别适合 AI Agents。这些场景展示了智能代理在需要结合对话和行动、有明确成功标准、启用反馈循环并融入有效人工监督的任务中所能创造的实际价值。

A. Customer Support(客户支持)

这个我之前听红杉的一个分享,也是提到这个客服和法律是最适合的场景(红杉资本2024年AI Ascent开幕致辞)。

客户支持结合了熟悉的聊天机器人界面和工具集成增强功能,为更开放的智能代理应用提供了天然契合点:

  1. 对话流自然
  • 支持交互通常遵循对话流程,但同时需要访问外部信息和采取实际行动。
  1. 工具集成
  • 可调用工具以检索客户数据、订单历史及知识库文章。
  1. 自动化操作
  • 通过编程执行退款、更新工单等任务。
  1. 成功可量化
  • 成功通过用户定义的解决标准(如问题解决或任务完成)进行衡量。

示例
多家公司通过基于使用的定价模型验证了这种方法的可行性,仅对成功解决问题收费,展现了对其代理效果的信心。

B. Coding Agents(代码代理)

软件开发领域展现了 LLM 功能的巨大潜力,其能力已从代码补全发展到自主问题解决。代码代理在以下方面表现出色:

  1. 解决方案可验证
  • 代码解决方案可通过自动化测试验证正确性。
  1. 反馈驱动优化
  • 代理可以根据测试结果迭代改进代码。
  1. 问题空间明确
  • 软件开发的问题空间通常结构化且定义清晰。
  1. 输出质量可衡量
  • 通过功能性测试客观评估输出质量。

示例
在Anthropic的实现中,代理已能够基于拉取请求描述(Pull Request Description)解决 SWE-bench Verified 基准测试中的实际 GitHub 问题。虽然自动化测试可以验证功能,但人工审查仍然是确保解决方案符合更广泛系统需求的关键。

下面给大家分享一份2025最新版的大模型学习路线,帮助新人小白更系统、更快速的学习大模型!
因篇幅有限,仅展示部分资料,需要点击下方链接即可前往获取

2024最新版CSDN大礼包:《AGI大模型学习资源包》免费分享**

一、2025最新大模型学习路线

一个明确的学习路线可以帮助新人了解从哪里开始,按照什么顺序学习,以及需要掌握哪些知识点。大模型领域涉及的知识点非常广泛,没有明确的学习路线可能会导致新人感到迷茫,不知道应该专注于哪些内容。

我们把学习路线分成L1到L4四个阶段,一步步带你从入门到进阶,从理论到实战。

L1级别:AI大模型时代的华丽登场

L1阶段:我们会去了解大模型的基础知识,以及大模型在各个行业的应用和分析;学习理解大模型的核心原理,关键技术,以及大模型应用场景;通过理论原理结合多个项目实战,从提示工程基础到提示工程进阶,掌握Prompt提示工程。

L2级别:AI大模型RAG应用开发工程

L2阶段是我们的AI大模型RAG应用开发工程,我们会去学习RAG检索增强生成:包括Naive RAG、Advanced-RAG以及RAG性能评估,还有GraphRAG在内的多个RAG热门项目的分析。

L3级别:大模型Agent应用架构进阶实践

L3阶段:大模型Agent应用架构进阶实现,我们会去学习LangChain、 LIamaIndex框架,也会学习到AutoGPT、 MetaGPT等多Agent系统,打造我们自己的Agent智能体;同时还可以学习到包括Coze、Dify在内的可视化工具的使用。

L4级别:大模型微调与私有化部署

L4阶段:大模型的微调和私有化部署,我们会更加深入的探讨Transformer架构,学习大模型的微调技术,利用DeepSpeed、Lamam Factory等工具快速进行模型微调;并通过Ollama、vLLM等推理部署框架,实现模型的快速部署。

整个大模型学习路线L1主要是对大模型的理论基础、生态以及提示词他的一个学习掌握;而L3 L4更多的是通过项目实战来掌握大模型的应用开发,针对以上大模型的学习路线我们也整理了对应的学习视频教程,和配套的学习资料。

二、大模型经典PDF书籍

书籍和学习文档资料是学习大模型过程中必不可少的,我们精选了一系列深入探讨大模型技术的书籍和学习文档,它们由领域内的顶尖专家撰写,内容全面、深入、详尽,为你学习大模型提供坚实的理论基础(书籍含电子版PDF)

三、大模型视频教程

对于很多自学或者没有基础的同学来说,书籍这些纯文字类的学习教材会觉得比较晦涩难以理解,因此,我们提供了丰富的大模型视频教程,以动态、形象的方式展示技术概念,帮助你更快、更轻松地掌握核心知识

四、大模型项目实战

学以致用 ,当你的理论知识积累到一定程度,就需要通过项目实战,在实际操作中检验和巩固你所学到的知识,同时为你找工作和职业发展打下坚实的基础。

五、大模型面试题

面试不仅是技术的较量,更需要充分的准备。

在你已经掌握了大模型技术之后,就需要开始准备面试,我们将提供精心整理的大模型面试题库,涵盖当前面试中可能遇到的各种技术问题,让你在面试中游刃有余。


因篇幅有限,仅展示部分资料,需要点击下方链接即可前往获取

2024最新版CSDN大礼包:《AGI大模型学习资源包》免费分享

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值