2025 年如何从零开始构建高效的AI Agent 智能体（一）什么是AI Agent (智能体）

本文链接：https://blog.csdn.net/Androiddddd/article/details/145154227

导语

随着大模型模型的快速发展，越来越多的企业开始构建各种AI助手，譬如：腾讯的混元大模型融入到腾讯文档；字节的豆包大模型融合到飞书。那么如何才能开发出高效实用的AI助手呢？去年以来，人工智能公司 Anthropic 和很多行业的团队合作去构建LLM Agent，近日撰文《Building effective agents》[1]分享了他们的一些经验。

Consistently, the most successful implementations weren’t using complex frameworks or specialized libraries. Instead, they were building with simple, composable patterns.

一直以来，最成功的实现并没有使用复杂的框架或专门的库。相反，它们是用简单、可组合的模式构建的。

一、什么是AI Agent (智能体)

“Agent (智能体)” 在市面上有两种定义：

可以长时间独立运行的完全可自主的系统，并且能调用各种工具完成复杂任务。
使用多个预设的指令构成的预设的工作流 workflow。

Anthropic则是将所有的类型都归类为 agentic systems ( 智能系统 )，根据架构的不同来区分 Workflow 工作流和 Agents 智能体：

Workflow 工作流：通过预设的代码对LLM和工具进行精心编排的系统。如：字节扣子的工作流。
Agents 智能体：大模型LLM动态地自主控制自己的程序流程以及自主调用工具的使用，最后能一直将执行状态保持到任务完成。

譬如：需求是购买一张飞往北京的机票。Agents会根据需求，进行任务拆解（查询出发/到达城市天气、查询航班、下订单购买），在任务执行的过程中，会自主调用工具完成任务，并且会自主解决中途出现的问题，直至任务完成。

在这里插入图片描述

二、你可能不需要一个 agentic systems ( 智能系统 )

在使用LLM构建应用的时候，我们建议尽可能地找到最简单的解决方案，只有在必要的时候才增加架构复杂性。这就意味着，你并不一定需要去构建一个 agentic systems ( 智能系统 ) 。因为 agentic systems ( 智能系统 ) 通常需要以更高的响应延迟以及更高昂的成本为代价来换取更好的任务效果，所以你必须要在两者之间作出取舍。

三、Workflow Or Agents

Workflow：可以为明确的任务提供可预测性和一致性。当你需要处理具有一定复杂性任务的时候，可以选择使用。
Agents：可以提供更高的灵活性和更强的决策能力。当你需要让大模型LLM动态根据环境进行高动态的决策，那么你可以选择使用他。譬如：程序代码编写情景，让Agents帮你根据产品需求完成整个PR的编写并提交。

实际上，对于很多应用来说，很多时候，一个优化过的，带检索和上下文示例信息的LLM 调用通常就足够了。某种意义上来说，就是一个RAG。

检索增强生成（RAG）是指对大型语言模型输出进行优化，使其能够在生成响应之前引用训练数据来源之外的权威知识库。大型语言模型（LLM）用海量数据进行训练，使用数十亿个参数为回答问题、翻译语言和完成句子等任务生成原始输出。在 LLM 本就强大的功能基础上，RAG 将其扩展为能访问特定领域或组织的内部知识库，所有这些都无需重新训练模型。这是一种经济高效地改进 LLM 输出的方法，让它在各种情境下都能保持相关性、准确性和实用性。

四、何时以及如何使用框架

许多框架使 agentic systems ( 智能系统 ) 的实现更容易，包括但不限于：

LangChain[2] 的 LangGraph
Amazon Bedrock 的 AI Agent 框架[3]
Rivet[4],一个拖放式 GUI LLM 工作流构建器
Vellum[5],另一个用于构建和测试复杂工作流的 GUI 工具
字节的Coze[6]
腾讯的腾讯元器[7]

这些框架通过简化标准的底层任务，譬如：调用LLM、定义提示词、文档解析工具和链式调用各个模块，使得新人入门门槛降低，更加容易上手。但这是需要付出代价的，这些框架通常会对底层进行新的抽象、提出新的概念。也就是大家编程里面所熟悉的，“实在不行加一层”。这就很有可能会屏蔽掉底层的提示词和响应，将会直线增加Debug的难度。这类框架也会增加更多的复杂性，让用户在配置上更加简单，以此来吸引新用户的使用。

我们建议你直接使用 LLM API，很多情景都可以用几行代码实现。如果你使用框架，要确保理解底层代码。对框架的实际底层架构进行错误假设是出错的常见原因。