解析AI Agent技术原理和应用

大模型.

已于 2025-02-28 14:13:41 修改

阅读量1.3k

点赞数 17

文章标签：人工智能开发语言 agi gpt 架构大模型

于 2025-02-28 14:13:28 首次发布

本文链接：https://blog.csdn.net/EnjoyEDU/article/details/145927424

版权

一、AI Agent（LLM Agent）介绍

1、AI Agent是什么

AI Agent（人工智能代理）是一种能够感知环境、进行决策和执行动作的智能实体。不同于传统的人工智能， AI Agent 具备通过独立思考、调用工具去逐步完成给定目标的能力。比如，告诉 AI Agent 帮忙下单一份外卖，它就可以直接调用 APP 选择外卖，再调用支付程序下单支付，无需人类去指定每一步的操作。

我们看见的 AI Agent 往往以问答机器人作为交互入口，通过自然语言触发全自动的工作流，中间没有人工介入。由于人只负责发送指令，并不参与对 AI 结果的反馈。

2、大模型LLM的缺陷与 AI Agent优势

LLM 的一些缺点：

会产生幻觉
结果并不总是真实的
对时事的了解有限或一无所知
很难应对复杂的计算
没有行动能力
没有长期记忆能力

比如让 ChatGPT 买一杯咖啡，ChatGPT 给出的反馈一般类似 “无法购买咖啡，它只是一个文字 AI 助手” 之类的回答。但你要告知基于 ChatGPT 的 AI Agent 工具让它买一杯咖啡，它会首先拆解如何才能为你购买一杯咖啡并拟定代用某 APP 下单以及支付等若干步骤，然后按照这些步骤调用 APP 选择外卖，再调用支付程序下单支付，过程无需人类去指定每一步操作。这就是 AI Agent 的用武之地，它可以利用外部工具来克服这些限制。

AI Agent 的诞生就是为了处理各种复杂任务的，就复杂任务的处理流程而言 AI Agent 主要分为两大类：行动类、规划执行类。总而言之，AI Agent 就是结合大模型能去自动思考、规划、效验和执行的一个计算体，以完成特定的任务目标，如果把大模型比作大脑，那 AI Agent 可以理解为小脑 + 手脚。

3、AI工具发展的阶段

过去的嵌入式工具型 AI助手型工具（例如 siri、小度、小愛音箱），只完成和人之间的问答会话。

目前各类 AI Copilot 不再是机械地完成人类指令，而是可以参与人类工作流，为诸如编写代码、策划活动、优化流程等事项提供建议，与人类协同完成。

而AI Agent 的工作仅需给定一个目标，它就能够针对目标独立思考并做出行动，它会根据给定任务详细拆解出每一步的计划步骤，依靠来自外界的反馈和自主思考，自己给自己创建 prompt，来实现目标。如果说 Copilot 是 “副驾驶”，那么 Agent 则可以算得上一个初级的 “主驾驶”。

4、案例：AutoGPT 做市场调研

假装自己经营一家鞋公司，给 AutoGPT 下达的命令是对防水鞋进行市场调查，然后让其给出 top5 公司，并报告竞争对手的优缺点 :

首先，AutoGPT 直接去谷歌搜索，然后找防水鞋综合评估 top 5 的公司。一旦找到相关链接，AutoGPT 就会为自己提出一些问题，例如【每双鞋的优缺点是什么、每款排名前 5 的防水鞋的优缺点是什么、男士排名前 5 的防水鞋】等。

之后，AutoGPT 继续分析其他各类网站，并结合谷歌搜索，更新查询，直到对结果满意为止。期间，AutoGPT 能够判断哪些评论可能偏向于伪造，因此它必须验证评论者。

执行过程中，AutoGPT 甚至衍生出自己的子智能体来执行分析网站的任务，找出解决问题的方法，所有工作完全靠自己。结果是，AutoGPT 给出了 top 5 防水鞋公司的一份非常详细的报告，报告包含各个公司的优缺点，此外还给出了一个简明扼要的结论。全程只用了 8 分钟，费用为 10 美分。期间也完全没有优化。

二、AI Agent 的框架

基于大模型的 AI Agent 系统可以拆分为大模型、规划、记忆与工具使用四个组件部分。OpenAI 应用研究主管LilianWeng提出 Agent=LLM+规划技能+记忆+工具使用的基础架构，其中 LLM 扮演了 Agent 的 “大脑”，在这个系统中提供推理、规划等能力。

1、大模型+规划： Agent 的 “大脑”，通过思维链能力实现任务分解

LLM 具备逻辑推理能力，Agent 可以将 LLM 的逻辑推理能力激发出来。当模型规模足够大的时候，LLM 本身是具备推理能力的。在简单推理问题上，LLM 已经达到了很好的能力；但在复杂推理问题上，LLM 有时还是会出现错误。事实上，很多时候用户无法通过 LLM 获得理想的回答，原因在于 prompt 不够合适，无法激发 LLM 本身的推理能力，通过追加辅助推理的 prompt，可以大幅提升 LLM 的推理效果。在《Large language models are zero-shot reasoners》这篇论文的测试中，在向 LLM 提问的时候追加 “Let’s think step by step” 后，在数学推理测试集 GSM8K 上的推理准确率从 10.4% 提升到了 40.7%。而 Agent 作为智能体代理，能够根据给定的目标自己创建合适的 prompt，可以更好地激发大模型的推理能力。

通常情况下，一项复杂的任务往往涉及许多步骤。AI Agent 需要首先拆解这些步骤，并提前做好计划。任务的分解的环节可以由三种方式完成：1）在大模型输入简单的提示，比如 “XYZ 的步骤”，或者 “实现 XYZ 的子目标是什么？”；2）使用特定任务的指令，比如在需要写小说的时候要求大模型 “写一个故事大纲”；3）通过人工提供信息。当下普遍的技术模式包括思维链和思维树：

思维链（Chain of Thoughts）

思维链（Chain of Thoughts）已成为一种标准的提示技术，用于提高模型在复杂任务中的表现。模型被要求 “一步一步地思考”，将艰巨的任务分解为更小更简单的步骤。思维链将大任务转化为多个可管理的任务，并帮助人们理解模型的思维过程。

以一个数学题为例，标准 Prompting，模型输入：

问：罗杰有5个网球，他又买了两盒网球，每盒有3个网球。他现在有多少网球？

答：答案是11

可以看到模型无法做出正确的回答。但如果说，我们给模型一些关于解题的思路，就像我们数学考试，都会把解题过程写出来再最终得出答案，不然无法得分。CoT 做的就是这件事，示例如下：CoT Prompting，模型输入：

问：罗杰有5个网球，他又买了两盒网球，每盒有3个网球。他现在有多少网球？

答：罗杰一开始有5个网球，2盒3个网球，一共就是2\*3\=6个网球，5+6\=11。答案是11.

可以看到，类似的算术题，思维链提示会在给出答案之前，还会自动给出推理步骤。思维链提示，就是把一个多步骤推理问题，分解成很多个中间步骤，分配给更多的计算量，生成更多的 token，再把这些答案拼接在一起进行求解。

思维树（Tree of Thoughts）

思维树（Tree of Thoughts）通过在任务的每一步探索多种推理可能性来扩展思维链。它首先将问题分解为多个思考步骤，并在每个步骤中生成多个想法，从而创建一个树状结构。搜索过程可以是 BFS（广度优先搜索）或 DFS（深度优先搜索）。ToT 做 4 件事：思想分解、思想生成器、状态评估器和搜索算法。

ToT Prompt 的例子如下:

假设三位不同的专家来回答这个问题。所有专家都写下他们思考这个问题的第一个步骤，然后与大家分享。然后，所有专家都写下他们思考的下一个步骤并分享。以此类推，直到所有专家写完他们思考的所有步骤。只要大家发现有专家的步骤出错了，就让这位专家离开。请问...

另一方面，试错和纠错在现实世界的任务决策中是不可避免且至关重要的步骤。自我反思帮助 AI Agent 完善过去的行动决策、纠正以前的错误、从而不断改进。当下的技术包括 ReAct、Reflexion、后见链（Chain of Hindsight）等

ReAct：将任务中单独的行为和语言空间组合在一起，从而使大模型的推理和行动融为一体。该模式帮助大模型与环境互动（例如使用维基百科搜索 API），并以自然语言留下推理的痕迹。

Reflexion：一个让 AI Agent 具备动态记忆和自我反思能力以提高推理能力的框架。沿用了 ReAct 中的设置，并提供简单的二进制奖励。每次行动后，AI Agent 都会计算一个启发式函数，并根据自我反思的结果决定是否重置环境以开始新的试验。这个启发式的函数可以判断是否当下的路径效率低下（耗时过长却没有成功）或包含幻觉（在环境中遇到一连串导致相同观察结果的相同行动），并在出现这两种情况下终止函数。

2、记忆：用有限的上下文长度实现更多的记忆

记忆模块负责存储信息，包括过去的交互、学习到的知识，甚至是临时的任务信息。例如，一个具备记忆功能的聊天机器人可以记住用户的偏好或先前的对话内容，从而提供更个性化和连贯的交流体验。

对于 AI Agent 系统而言，用户在与其交互过程中产生的内容都可以认为是 Agent 的记忆，和人类记忆的模式能够产生对应关系。目前 Agent 主要是利用外部的长期记忆，来完成很多的复杂任务，比如阅读 PDF、联网搜索实时新闻等。任务与结果会储存在记忆模块中，当信息被调用时，储存在记忆中的信息会回到与用户的对话中，由此创造出更加紧密的上下文环境。

为了解决有限记忆时间的限制，通常会用到外部存储器。常见的做法是将信息的嵌入表示保存到可支持快速的最大内积搜索（MIPS）的向量存储数据库中。向量数据库通过将数据转化为向量存储，解决大模型海量知识的存储、检索、匹配问题。向量是 AI 理解世界的通用数据形式，大模型需要大量的数据进行训练，以获取丰富的语义和上下文信息，导致了数据量的指数级增长。向量数据库利用人工智能中的 Embedding 方法，将图像、音视频等非结构化数据抽象、转换为多维向量，由此可以结构化地在向量数据库中进行管理，从而实现快速、高效的数据存储和检索过程，赋予了 Agent“长期记忆”。

三、AI Agent 未来发展

结合目前学术界和产业界基于 LLM 开发的 AI Agent 应用情况，我们将目前 AI Agent 划分为两大类：

自主智能体，力图实现复杂流程自动化。当给定自主智能体一个目标时，它们能自行创建任务、完任务、创建新任务、重新确定任务列表的优先级、完成新的首要任务，并不断重复这个过程，直到完成目标。准确度要求高，因而更需要外部工具辅助减少大模型不确定性的负面影响。

智能体模拟，力图更加拟人可信。分为强调情感情商的智能体以及强调交互的智能体，后者往往是在多智能体环境中，可能涌现出超越设计者规划的场景和能力，大模型生成的不确定性反而成为优势，多样性使其有望成为 AIGC 重要组成部分。

1、自主智能体：自动化，新一轮生产力革命

自主智能体，力图实现复杂流程自动化。真格基金管理合伙人戴雨森将 AI 和人类协作的程度类比为自动驾驶的不同阶段， AI Agent 约为自动驾驶的 L4 阶段， Agent 完成任务，人进行外部辅助和监督。自主智能体有望带来软件行业交互方式和商业模式变革：

交互方式变革：相比过去的 APP / 软件，从人适应应用变成应用适应人， Agent 的决策 / 规划 / 执行等环节需要更深的用户需求理解以及更强的工程细节打磨。
商业模式变革：按服务内容收费转换成按 token 收费，对 Agent 功能实用性要求更高。

典型代表：

AutoGPT
代码开发类 GPT Engineer
科研类 GPT Researcher
创作类 ShortGPT+ 多智能体： AGENT 团队完成复杂开发任务，如 MetaGPT、AutoGEN

2、智能体模拟：拟人化，新的精神消费品

陪伴类智能体强调情感情商等人类特征，具有 “人格”，且能够记住与用户的历史交流。

LLM 在自然语言理解能力上的重要突破使陪伴类智能体在技术上成为可能，

GPT4 在情商上显著高于以往其他大模型，随着大模型情商迭代、多模态技术发展，有望出现更加立体拟人可信、能够提供较高情绪价值的陪伴智能体。

研究机构认为国内情绪消费市场仍有较大想象空间（社会婚姻观念转变、现代工作生活节奏紧张下，国民孤独感增加），陪伴类智能体或受益于情绪消费趋势红利，成为 LLM 时代重要的 AI 原生应用。从用户陪伴性需求的第一性原理出发，我们预计陪伴类智能体大部分商业价值集中在 IP 上，基于此我们更加看好当前具备丰富 IP 储备或者能让用户定制智能体的玩家：

参考人的陪伴：陌生人社交和秀场直播属于线上陪伴代表性应用，前者核心问题在于用户间建立一定情感联系后会转到最常用的社交平台，后者用户价值会逐渐集中到头部主播，而非平台。
参考物的陪伴：潮玩等消费品有一定的陪伴属性，受众大部分支出花在自己喜欢的 IP。典型代表：

陪伴类：高情商、具备人格特征，如 Pi

平台化娱乐化，如 Character.AI、 Glow 等

游戏世界 AI 玩家，如 Voyager+ Smallville 小镇，类西部世界的模拟社会+ 网易《逆水寒》手游， AI NPC 提高玩家体验

昆仑万维《Club Koala》虚拟世界更可信

四、总结

至此，本文的探讨已圆满落幕，我们深入剖析了AI Agent这一前沿科技领域的全貌。从基础概念的澄清，到技术原理的细致解构，再跨越至丰富多样的应用场景探索，直至展望其激动人心的未来发展趋势，每一步都凝聚着对AI Agent技术潜力的无限憧憬。诚然，文中提及的诸多项目尚处于学术研究与实践探索的初期阶段，以论文形式呈现的实验性成果，恰似璀璨星辰，预示着大模型技术未来航向的无限可能。这些星星之火，或将点燃AI应用的燎原之势，催生出前所未见的新领域、新机遇，为社会的每一个角落注入智能的活力。

展望未来，AI Agent技术有望在未来五年内实现跨越式发展，其普及程度将远超预期，深刻渗透并重塑千行百业的运作模式。我们期待，这一技术不仅能够在效率上实现质的飞跃，为传统行业带来颠覆性的改变，更能作为创新驱动的核心力量，开启一个智能互联、高效协同的新时代。让我们共同见证，AI Agent技术如何携手各行各业，绘制出一幅幅生动绚丽的智能未来图景。

如何学习大模型 AI ？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

这份完整版的大模型 AI 学习资料已经上传CSDN，朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】