2025年,科技领域暗流涌动,一个神秘而又充满潜力的发力点正悄然崛起——Agent!如今,基础模型的能力正以惊人的速度进化,而今年的AI Agent也毫无悬念地成为了热门话题的“宠儿”。更令人瞩目的是,众多最新的学术研究都紧紧围绕着Agent展开,这背后究竟隐藏着怎样的科技密码和发展机遇?
站在这个炙手可热的风口之上,仿佛只要轻轻搭个“顺风车”,就能在未来的科技赛道上抢占先机。但问题来了,到底什么是Agent呢?相信每个人心中都有自己的答案,却又似乎都不够全面和准确。
别着急,今天我们就来一场Agent知识的深度探索之旅,从它的组成架构,到各部分面临的棘手痛点,再到那些令人惊叹的应用场景,以及充满无限可能的未来发展,甚至连相关的开源框架都一一为你揭晓,让你彻底揭开Agent的神秘面纱!
在AI的发展历程中,我们最初接触到的AI模型,就像是一位严格遵循指令的“执行者”。我们向它输入明确的指令,模型便按照既定的步骤,亦步亦趋地执行任务,直至达成目标。这种模式下,AI模型的表现高度依赖于指令的清晰程度和完整性,一旦指令模糊或缺失关键信息,模型可能就会陷入困境,无法给出理想的结果。
然而,Agent的出现,宛如AI领域的一场变革,为我们带来了全新的认知。Agent与传统AI模型截然不同,它摆脱了对明确指令的依赖,而是基于目标展开一系列自主的思考、规划、执行与反思过程,最终实现既定目标。打个形象的比喻,Agent就如同一位经验丰富的智者,面对复杂问题时,它会先对问题进行深入剖析,梳理出清晰的思路,然后依据思路有条不紊地解答问题。
在这个过程中,它还会像人类一样,灵活运用各种工具,比如书籍、搜索引擎等,来获取所需的信息,助力问题的解决。待得出答案后,它还会对结果进行仔细核算,确保答案的准确性和可靠性。
再举个简单的例子,假设你正在计划一次旅行,你需要了解目的地天气、航班信息,并预订酒店。如果你单独使用 AI 模型,它只能根据已有的训练数据提供建议,可能无法给出实时准确的信息。
但如果这个 AI 模型配备了天气 API、航班查询工具和酒店预订系统,它就可以实时获取最新的天气情况、查询最佳航班,并直接帮你完成预订操作。这个AI 体系就可以理解为一个智能代理(Agent)。
大家都在提Agent,例如AutoAgent、Dify、Manus等,突然想到一个问题,那么什么才是Agent,有没有明确的定义呢?为此关于Agent的定义,网上搜索了一圈,说其最早“Agent”这个词可以追溯到古罗马时期,并且还能够从一些哲学家的哲学作品找到影子。
在人工智能领域应用方面,作者主要接触下面两种类型智能体(小工具智能体除外):
一种是基于小模型+规则的智能体,通过模型做意图分类、实体识别、情感分类等,然后人为添加流程控制和固定外调接口,让智能体在不同的流程节点,给出对应的答案,就比如当前大多数公司使用的智能客服,首层一般都是一个意图分类模型做菜单导航,每个业务都对应的业务流程节点,每个节点人为配置,通过实体识别、意图识别进入下一个节点,最终实现业务办理或者介绍。尽管每家都说智能客服准确率怎么样,解决了多少问题,节约了多少人力,但对于实际用户来说,还是人工方便。
一种是基于大模型+规则智能体,由于大模型(LLM)具备逻辑推理、任务规划、工具调用等相关能力,相当于融合了小模型的实体识别、意图分类、人为流程编排、接口外调等功能。为此,目前主流的AI Agent以大模型为核心,Agent能够自主感知、规划、执行和反馈,从而完成复杂任务,比如最近的Manus就引起了大家的注意。相比 传统的AI 仅限于被动响应,Agent更强调自主决策和任务执行能力。(未来发展方向基本都会依赖大模型能力吧~)
然而,不管Agent最早出自哪里,你是怎么理解Agent。我们参考一下去年Google发布了一篇Agent的白皮书,给出了Agent的定义:Agent 是一个能够自主决策并采取行动的软件系统,它能够观察环境、使用工具,并以目标为导向执行任务。
Agent 由多个组件协同工作,以实现高效决策和任务执行。看到很多文章都提到说:大模型Agent由规划、记忆、工具与行动四大关键部分组成,分别负责任务拆解与策略评估、信息存储与回忆、环境感知与决策辅助、以及将思维转化为实际行动。但实际上现在的大模型Agent最主要几个关键部分为:base大模型的动态推理规划、工具模块、记忆模块。
Agent中的工具(Tools),主要用于扩展 Agent 访问外部世界的能力,例如 API、数据库等,使其能够执行检索、计算、数据存储等操作,注意:在多Agent情况下,其它Agent也可以理解为工具。它是现代AI发展的关键方向,它显著扩展了模型的能力边界,使AI能够执行原本无法完成的操作,如网络搜索、复杂计算和API调用等。
1)传统方式写好API代码接口,让模型解析出代码接口所需要的参数,然后调用接口拿到结果。比如:写了一个机票查询的接口。用户说:我要买一张北京到上海的机票,让模型提取文中上海、北京两个地址,才能调用接口拿到结果。但是如果直接说:我要买一张到上海的机票,这个时候API接口就无法调用,可见这种方法维护性和扩展性都很差。
2)大模型function call,当前大模型基本上都具备了外调function的能力。大模型识别用户意图后,从预定义的函数列表中自动选择合适的函数,生成结构化的JSON格式参数,然后系统执行实际的函数调用。这允许模型以标准化方式与外部API和服务交互,是目前商业API中最常见的工具使用形式。下图是一个工具应用流程。
3)工具增强型提示,在提示词中直接描述可用工具及其使用方法,让模型生成调用工具的指令。这种方法简单直接,但对提示工程要求较高。
4)工具库将大模型可能用到的工具存储起来,当面对不同的问题的时候,去工具箱中检索,并选择合适的工具。其实RAG技术,只是向量数据库中存储的工具API的详细介绍。如下图所示:
5)模型微调通过特定的训练或微调,教会模型如何使用特定工具。这种方法将工具使用能力直接编入模型参数,使模型在特定工具上表现更佳。
记忆模块主要负责存储和管理信息,从而实现更精准、更个性化的响应。具体来说:它不仅维护即时对话上下文,更承担着知识持久化、经验累积与信息检索的关键功能。在复杂任务处理过程中,记忆模块可以让Agent能够处理超出上下文窗口的长期依赖问题,同时记录工具调用历史与结果,避免重复操作并支持结果整合。
2025年,提出了解耦知识推理三个关键方向,助力构建一个结合训练有素的检索系统和大型外部记忆库的推理系统,以克服现有架构在学习新场景推理时的局限。
2024年,记忆力压缩方面,斯坦福设计了一个名为HippoRAG的新型检索增强模型。装备了这一"类脑"记忆系统的大模型在多种需要知识整合的任务中展现出了惊人的性能提升。HippoRAG的诞生,为大模型赋予"类脑"的知识整合和长期记忆能力开辟了一条全新的路径。
下面介绍一些Agent常用的开源框架。
LangChain
•网址: https://www.langchain.com
•GitHub: https://github.com/langchain-ai/langchain
•功能: 构建基于LLM的应用程序,提供链式调用、工具整合和代理功能
AutoGen
•网址: https://microsoft.github.io/autogen
•GitHub: https://github.com/microsoft/autogen
•功能: 多代理对话框架,支持代理间协作
LlamaIndex
•网址: https://www.llamaindex.ai
•GitHub: https://github.com/jerryjliu/llama_index
•功能: 数据连接和检索增强框架
CrewAI
•网址: https://www.crewai.io
•GitHub: https://github.com/joaomdmoura/crewai
•功能: 协作代理框架,专注于角色分配和工作流
XAgent
•GitHub: https://github.com/OpenBMB/XAgent
•网址: https://x-agent.net
•功能: 自主智能体框架,强调规划和执行
LangGraph
•网址: https://python.langchain.com/docs/langgraph
•GitHub: https://github.com/langchain-ai/langgraph
•功能: 基于状态机的代理编排框架
CAMEL
•GitHub: https://github.com/camel-ai/camel
•功能: 基于角色的代理通信框架
DSPy
•网址: https://dspy.ai
•GitHub: https://github.com/stanfordnlp/dspy
•功能: 以编程方式优化LLM提示和链接
Haystack
•Cold网址: https://haystack.deepset.ai
•GitHub: https://github.com/deepset-ai/haystack
•功能: 模块化NLP框架,专注于问答系统和搜索
Agentverse
•GitHub: https://github.com/OpenBMB/AgentVerse
•功能: 多代理模拟环境,支持复杂交互
未来,Agent发展:潜力无限,前景可期。
1)模型能力持续进化
通过参数规模扩大与架构优化,大模型将突破语言理解、逻辑推理等能力边界。例如,在任务规划、工具使用等方面,效率能力更高;在模型思考推理速度等方面模型响应将更快。难点:千亿级参数模型的分布式推理优化,降低模型所需硬件功耗。
2)多模态融合成为标配
未来的Agent将整合文本、图像、语音等多模态输入输出能力,例如医疗Agent可同时分析CT影像(视觉)和病历文本(语言),生成综合诊断报告。
3)协作生态体系形成
多Agent系统将建立分工协作机制,通过博弈论框架实现动态任务分配。例如在物流调度场景中,路径规划Agent、库存管理Agent等可基于强化学习算法形成协同决策。难点:多Agent协作时的通信容错与冲突消解。
4)知识增强与成本优化
采用RAG(检索增强生成)技术,无需重新训练即可更新知识库。例如金融Agent通过实时接入市场数据源,快速响应政策变化。这就需要了解模型对本身知识和外挂知识整合能力,有研究显示:如果给模型的知识与本身的知识差距不大,模型会更倾向于自己的知识;同时模型更倾向于模型生成的数据知识。
5)伦理安全更加规范
随着应用普及,需解决数据隐私、算法偏见等问题。可以通过联邦学习实现数据隐私保护,目前了解到有一种方案是将模型分块,模型主体放在远程,降低本地资源要求。在客户端和模型服务端,进行加解密转换。
如何系统的去学习大模型LLM ?
大模型时代,火爆出圈的LLM大模型让程序员们开始重新评估自己的本领。 “AI会取代那些行业
?”“谁的饭碗又将不保了?
”等问题热议不断。
事实上,抢你饭碗的不是AI,而是会利用AI的人。
继科大讯飞、阿里、华为
等巨头公司发布AI产品后,很多中小企业也陆续进场!超高年薪,挖掘AI大模型人才! 如今大厂老板们,也更倾向于会AI的人,普通程序员,还有应对的机会吗?
与其焦虑……
不如成为「掌握AI工具的技术人
」,毕竟AI时代,谁先尝试,谁就能占得先机!
但是LLM相关的内容很多,现在网上的老课程老教材关于LLM又太少。所以现在小白入门就只能靠自学,学习成本和门槛很高。
基于此,我用做产品的心态来打磨这份大模型教程,深挖痛点并持续修改了近70次后,终于把整个AI大模型的学习门槛,降到了最低!
在这个版本当中:
第一您不需要具备任何算法和数学的基础
第二不要求准备高配置的电脑
第三不必懂Python等任何编程语言
您只需要听我讲,跟着我做即可,为了让学习的道路变得更简单,这份大模型教程已经给大家整理并打包,现在将这份 LLM大模型资料
分享出来:包括LLM大模型书籍、640套大模型行业报告、LLM大模型学习视频、LLM大模型学习路线、开源大模型学习教程
等, 😝有需要的小伙伴,可以 扫描下方二维码领取🆓↓↓↓
一、LLM大模型经典书籍
AI大模型已经成为了当今科技领域的一大热点,那以下这些大模型书籍就是非常不错的学习资源。
二、640套LLM大模型报告合集
这套包含640份报告的合集,涵盖了大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师,还是对AI大模型感兴趣的爱好者,这套报告合集都将为您提供宝贵的信息和启示。(几乎涵盖所有行业)
三、LLM大模型系列视频教程
四、LLM大模型开源教程(LLaLA/Meta/chatglm/chatgpt)
五、AI产品经理大模型教程
LLM大模型学习路线 ↓
阶段1:AI大模型时代的基础理解
-
目标:了解AI大模型的基本概念、发展历程和核心原理。
-
内容:
- L1.1 人工智能简述与大模型起源
- L1.2 大模型与通用人工智能
- L1.3 GPT模型的发展历程
- L1.4 模型工程
- L1.4.1 知识大模型
- L1.4.2 生产大模型
- L1.4.3 模型工程方法论
- L1.4.4 模型工程实践
- L1.5 GPT应用案例
阶段2:AI大模型API应用开发工程
-
目标:掌握AI大模型API的使用和开发,以及相关的编程技能。
-
内容:
- L2.1 API接口
- L2.1.1 OpenAI API接口
- L2.1.2 Python接口接入
- L2.1.3 BOT工具类框架
- L2.1.4 代码示例
- L2.2 Prompt框架
- L2.3 流水线工程
- L2.4 总结与展望
阶段3:AI大模型应用架构实践
-
目标:深入理解AI大模型的应用架构,并能够进行私有化部署。
-
内容:
- L3.1 Agent模型框架
- L3.2 MetaGPT
- L3.3 ChatGLM
- L3.4 LLAMA
- L3.5 其他大模型介绍
阶段4:AI大模型私有化部署
-
目标:掌握多种AI大模型的私有化部署,包括多模态和特定领域模型。
-
内容:
- L4.1 模型私有化部署概述
- L4.2 模型私有化部署的关键技术
- L4.3 模型私有化部署的实施步骤
- L4.4 模型私有化部署的应用场景
这份 LLM大模型资料
包括LLM大模型书籍、640套大模型行业报告、LLM大模型学习视频、LLM大模型学习路线、开源大模型学习教程
等, 😝有需要的小伙伴,可以 扫描下方二维码领取🆓↓↓↓