本文深入解析了AI智能体(Agent)的核心概念、工作流程和关键技术。以深度研究智能体为例,介绍了其定义、产品实现及工作原理,详细分析了智能体的规划、执行、记忆等核心能力,以及RAG、函数调用、MCP协议等关键技术。文章通过商业产品实例,帮助读者理解智能体的技术架构和实现方式,为开发者提供构建智能体的实用指导。
如果你看烦了太多智能体的科普水文,那么这篇笔记应该不会让你失望。
随着人工智能的宣传普及,AI Agent(智能体)的概念已经逐渐像大模型的概念一样成为了一个非常基础的背景概念。谈到智能体,大家会说:“喔,我懂智能体,它比大模型更加强大,它能够调用工具,还能够基于额外的知识库回答问题。它还有MCP协议。”
如果只是作为普通的用户,我觉得能够理解到这里已经足够了。但是如果是一个人工智能的关注者,我认为这些还远远不够。我们需要对智能体的全景有更全面深入的了解,需要以下的核心问题:
- 智能体的愿景和理念是什么?它的价值锚定在哪?
- 它是通过什么样的思路或方式去工作,从而达成目标的?
- 智能体实际实现了它许下的价值承诺了吗?
- 目前遇到了哪些问题?在未来它的演进会是什么?
在一些基础的科普文章中,其实对前3个问题都有一些基本的答案,但是如果你阅读过很多就会遗憾地发现,有很大一部分文章的内容辜负了它的标题,甚至明显能看出是AI汇编的内容。看来识别出高质量的“数据”不仅对于人工智能很难,对于人类也不简单。当然,也有一些深入浅出的好文,将基本的概念和框架进行了梳理。但由于缺少一些更加具体的例子,其实依然没有留下非常深刻的理解(这里指的不是代码级别的干货,而是类似技术框架和产品价值之间的逻辑)。
本文的主要组织思路是:从目前发展最好的智能体赛道——深度研究智能体(如OpenAI的DeepResearch),通过学习和理解智能体的思路框架是如何应用于成功打造DeepResearch类型产品,来在此过程中具象理解哪些过程哪些技术发挥了哪些作用。也就是在真实的商业智能体产品中,理解这些被使用的关键技术以及这些技术如何发挥作用,如RAG、工作流、记忆机制等 。
本文重点学习和参考了论文《DEEP RESEARCH AGENTS: A SYSTEMATIC EXAMINATION AND ROADMAP》进行梳理,并在此基础上结合个人学习和扩展,进行笔记梳理。
一、深度研究智能体定义及产品——智能体理念的实际商业落地
什么是深度研究智能体
深度研究(Deep Research, DR)智能体主要指用于特定完成“深度研究”类任务的智能体,相比直接使用大模型问答来搜索信息并生成研究分析报告,深度研究智能体通过引入高级推理、任务规划和分析工具等,提升了大模型在完成研究报告生成任务上的效果。
论文中给出的正式定义:深度研究智能体是由大型语言模型(LLMs)驱动的智能体(AI Agent),具备动态推理、自适应规划、多轮外部数据检索及工具使用能力,并能生成全面的分析报告,适用于信息研究任务。
全球DeepResearch产品
在深度研究智能体中,第一个登场的谷歌Gemini,随后OpenAI、Perplexity等也相继推出了自己的同名功能。
Gemini DeepResearch(Google)
Gemini DeepResearch是谷歌旗下DeepMind的产品,于24年底首次发布。其特点是基于“先计划”、“再执行”模式和Google的搜索基础设施服务实现广泛的搜索与内容整合,采用 “先规划、后执行”范式,一次给出全面的计划并支持用户调整计划,适合需要大量信息获取和综合研究型的任务。(体现了智能体理念中的“规划”环节,以及工具使用与环境交互,如将谷歌搜索服务作为工具在过程中调用)
ChatGPT 的DeepResearch功能(OpenAI)
OpenAI 也是深度研究智能体的先行者,其Deep Research功能在2025年春季向plus会员开放。相较于直接使用GPT模型,其最显著的差异在于它会模仿人类研究员的思路,将复杂问题拆解成若干小的问题,然后分步解决。这种自主规划拆解问题的能力,使得Deep Research能够胜任解决更加复杂问题的工作(其实这也就是智能体的理念)。
Grok DeepSearch(xAI)
Grok发布的是「DeepSearch」,没有"Research"只有"Search"。后续还推出了「DeeperSearch」。从命名就可以看出,它的特点和优势就是“Search”。DeepSearch可以从多个渠道抓取数据,包括社交媒体、新闻和各类专业数据库等,并验证数据可靠性,对信息进行分析和过滤,提升结果的可信度。
Qwen Deep Research(阿里)
Qwen Deep Research是通义千问的研究型智能体模型。它可拆解复杂问题,结合互联网搜索进行推理分析并生成研究报告。
二、深度研究智能体工作流程——直观理解智能体的组成和工作机制
深度研究智能体的工作流程
下图展示的就是一个典型的深度研究智能体架构,它描述了一个深度研究智能体从用户输入到最终输出的完整工作流。从用户输入开始,经过规划和意图澄清(可选),到迭代使用各种工具(包括离线检索(矢量数据库和关系数据库)、在线检索(API和浏览器)以及扩展功能(如数据分析、编码等)和多模态生成的全过程,最终生成结构化的综合报告。
深度研究智能体工作流程(来源于参考资料[1])
直观理解智能体的组成和工作机制
虽然这张图描述的工作流是一个智能研究的例子,但其实这张图展示的工作机制是典型的智能体通用工作机制。用于直观具象理解智能体的核心组成和机制非常合适。因此,我在这张图上对智能体中的核心组成概念进行中文的标注。也就是下面这张图。
我们知道,智能体的能力包括:规划、记忆、执行(含工具调用)、感知环境。以及这些能力是通过智能体的“思考模块”(模型)、“执行模块”(工具)、“流程控制模块”(编排)等核心组成部分去实现。我们结合这张图可以更具象地去理解这些概念。
- 规划(大模型LLM):当用户输入需求时,大模型会实现用户的意图分析,并基于用户意图来完成任务的规划和拆解。
- 执行(智能体执行和编排模块、与智能体、工具的交互):这里涉及到是单智能体架构还是多智能体架构。
- 如果采用单智能体的架构,则在此部分可以在大模型基础上,通过调用内、外部的工具,以及外部的知识和工具去进行任务执行。那么流程控制则体现在,任务执行是一个循环迭代的过程,流程控制模块会监控任务的执行状态,循环迭代执行直至最终目标的达成。
- 如果采用多智能体架构,则此部分是多个用于完成更加特定细分任务的智能体,除了调用工具,智能体之间还可以基于A2A协议进行交互,以基于共同完成目标。
- 感知环境(智能体的边界):从狭义的智能体定义上来看,我们用红色线划分的区域可以理解为一个智能体的核心组成边界。明确智能体的边界其实也就明确了感知外部环境的交互接口。智能体可以通过各类传感器、数据接口等,收集周围环境信息,理解当前状态。如在深度研究智能体中,通过文本输入界面或接口接收用户文字信息,就是环境感知的一种。更复杂的如自动驾驶智能体为例,则借助摄像头、雷达等感知道路交通等环境信息,为后续决策提供依据。
- 记忆:记忆没有在图中特殊标记,因为这张图里确实没有合适的位置和体现。但是通过这张图,能够非常清晰地看到记忆这一项是非常重要的。智能体拥有短期记忆和长期记忆。短期记忆就是用来记录如图中所示当前整个工作过程的对话和任务上下文,而长期记忆就是存储过去的历史和经验,以便在未来任务中有更好的表现,记忆能力能够直接影响最终生成质量。
三、如何实现“模型不变,能力增强”——智能体使用的核心关键技术
在这一部分中,我们还是基于这张图去理解智能体中使用的核心关键技术。首先,智能体本身带来了一种AI应用的范式,但是智能体本身并非是一种技术,而是为了实现智能体的工作机制和理念,其中会应用到很多核心的相关技术。
下面这张图中用红色字体标记了深度研究智能体中在不同环节和组件中会涉及到的一些技术,虽然是在深度研究智能体中的应用,但是这些关键技术是通用的。这些名词有些指向的是具体的某类技术,如RAG、记忆机制;有些是方法和协议,如:MCP Function calling;而还有些则指向一些技术概念和框架,如单智能体架构、多智能体架构。
智能体的工作流/工作模式
首先来看工作流。工作流可分为“静态” 与 “动态” 两大类。
静态工作流(Static Workflow)模式下,智能体几乎不会自主决定流程,工作流由开发者进行预定义,也就是说已经人工将任务拆分成固定流程的子任务,某些子任务可能由大模型完成,但大模型不能决定下一步做什么 ,下一步做什么需要根据工作流中定义好的下一步来继续。这种模式最大的优势就是确定性和可控性,但缺点也是显而易见,这种模式牺牲了灵活和智能,似乎更像是一种十分保守和传统的AI尝试模式。
动态工作流(Dynamic Workflow)则是指允许智能体完全自主或部分自主决定流程的模式。在单个智能体架构下,动态工作流有着更加细分的几种实现模式。此外,在多智能体架构下,动态工作流的运行模式也有所不同。我们先看在单智能体中,动态工作流的几种模式:
-
ReAct模式:思考-行动交替的动态规划执行。这种模式有点像人类的“边想边做”。智能体循环执行:先思考当前状态与目标,生成下一步的想法,根据想法执行操作,比如调用某个工具。获得操作反馈并思考下一步,执行下一步,如此循环直到任务搞定。这种模式的优点是能够一步步来,每个步骤都可以不断校正方向,更加靠近目标。这种模式的缺点是缺乏全局规划,比较短视,和“边想边做”的缺点雷同。
ReAct模式示意图(来自参考资料[2])
-
Plan-and-Execute模式:先规划后调整。这种模式下,智能体会先生成一个较完整的计划,然后再行动。也就是将任务拆解成子任务清单,然后逐一执行。智能体可以根据实际执行情况动态调整(Refine),比如某一步如果结果不如预期,则可以修改后续步骤或重新规划。这种模式的优势是一开始就做好了全局规划,避免了ReAct模式的“走一步看一步”的短视,但缺点是如果初始计划有缺陷或步骤不合理就会导致任务沿着错误的方向进行到底,虽然可以Refine,但就会增加额外的开销。
Plan-and-Execute模式示意图(来自参考资料[2])
-
Workflow+局部智能模式:兼顾确定性与智能化。顾名思义,这种模式将静态工作流和动态工作流的模式相结合,在整体上采用静态工作流,但在某个节点(步骤)嵌入智能决策和执行。嵌入的智能节点可以采用上面的ReAct模式,或是Plan-and-Execute模式。这种模式的优点就是平衡了可控和智能灵活性,但缺点就是这种工作流定义比较复杂,且实际表现可能比较“难评”。
Workflow+局部智能模式示意图(来自参考资料[2])
单智能体到多智能体架构
对一些复杂场景,我们可以构建多个智能体。多智能体(Multi- Agent)系统通过多个专业化智能体协作执行子任务,这些子任务由专门的单独智能体来规划,并且可以根据实时反馈持续分配、重新分配任务。多个Agent之间可以通过A2A协议互相发现、分工协作,协同完成复杂任务。这类系统通常采用分层或集中式规划机制,这种模式常借助多智能体系统的典型开发框架包括LangGraph、AutoGen、CrewAI等来完成。多智能体系统的优势是能高效处理复杂、可并行的任务,但缺点也很明显——多智能体协调复杂度很高。
多智能体系统的多层模式示意图(来自参考资料[2])
检索增强生成
检索增强生成(Retrieval-Augmented Generation, RAG)是一种结合信息检索与自然语言生成的人工智能技术,旨在通过动态引入外部知识库的信息,提升大语言模型在知识密集型任务中的表现。在深度研究型智能体中,RAG技术扮演着“动态知识引擎”的角色。智能体需处理跨领域、多模态的复杂任务(如科研分析、决策支持),而传统LLM受限于静态训练数据和参数化知识,难以实时更新专业知识或处理罕见实体。在智能体中的关键作用具体体现在:
- 拓展知识边界:连接外部结构化/非结构化数据库(如向量数据库、知识图谱),实时检索最新领域知识,解决模型训练数据滞后性问题。
- 增强可信决策:通过引用权威来源减少模型“幻觉”,生成内容具备可追溯性,用户可验证答案来源,提升智能体的可信度。
- 支持持续学习:结合记忆管理技术(如Reflexion),智能体可将检索结果转化为长期记忆,迭代优化任务规划与推理能力。例如,在科研场景中,Agentic RAG通过主动迭代检索学术文献,生成跨学科的综合分析报告。
除了深度研究型智能体,RAG在打造企业知识助手、打造个人知识助手等定位的产品中,也是非常关键的技术。目前,有多款能够基于个人知识库快速打造知识助手的产品,比如腾讯的ima。(关于RAG,值得深入学习再单开一篇)
Function Calling和MCP
智能体支持对工具调用是其非常重要的一个关键能力。如在深度研究智能体中,当涉及到分析计算指标、生成可视化图表等非自然语言处理类型的任务时,大模型就需要调用外部工具来完成这些任务。那么如何调用?这里就涉及到Function Calling 和MCP这两个重要的技术概念。首先说明的是,两者是有一些些关系但是完全不同的两个概念。
函数调用(Function Calling)是指大语言模型具备的一种意图识别能力,能够知道何时应该调用外部函数,并且生成符合函数要求的参数的一种技术能力。因此,Function Calling更多指的是模型具备这种识别到需要调用外部函数的能力。不过要注意,大模型本身并不会直接去调用这些函数。它会依据用户输入的自然语言进行分析,识别出的意图,生成一个函数调用指令,然后由模型的调用方(也就是大模型再上一层的应用程序层)负责执行。
这里的外部函数主要是什么?主要就是一些工具,这些工具主要以api的形式提供服务。大模型通过调用外部函数,可以实现数据查询、计算、控制外部系统等无法通过纯语言生成完成的任务。因此,Function Calling这项能力让模型可以与外部工具、API和服务进行交互,实质上是搭建了AI模型与现实世界系统之间的桥梁。
一个具体的例子,在这个例子中可以看到,大模型只返回调用函数所需的入参,不直接调用函数。(来自参考资料[3])
随着工具数量的不断增加,且每个工具可能由不同的提供商提供,用法不同,客户端程序中就需要编写各种工具的调用和声明代码;另一方面,不同大模型的厂商对于自己大模型的接口定义也不同,因此,客户端程序一面要对接各种不同的工具,一面又要适配不同的大模型,就变得非常累。然后MCP出现了。
MCP(Model Context Protocol)是由 Anthropic 公司提出的一种协议。主要解决不同大语言模型与不同外部工具集成的标准化问题。通过MCP,开发者能够以一种统一的方式将各种数据源和工具连接到 Al 大模型,从而提升大模型的实用性和灵活性。在技术架构上,MCP 采用了客户端-服务器架构,MCP 客户端(Clients)负责维持与 MCP 服务器的1:1连接。因此,MCP主要做了一件标准化的事。
如果非要说明Function Calling 和MCP之间的关系,我觉得下面这张图最直接。个人理解MCP还是给Function calling提供了一种更加解耦的、标准化的技术实现手段。除了开发人员,在用户层面其实是基本感知不到差异的。
Function Calling 和MCP(来自参考资料[4]下的一篇回答)
记忆机制
智能体的记忆是一块又大又关键的部分。想想我们自己的人脑记忆,模型或智能体的记忆机制的重要程度自然就不言而喻了。在一个深度研究智能体中,记忆机制实现深度研究智能体进行跨多轮检索持续调用相关信息,提升任务效率与连贯性。
关于记忆的定义,从狭义上来看,指的是在一个智能体的运行交互过程中的交互历史的存储,也就是对话内容、环境反馈等信息,是一种模型外部记忆,不包括模型原有的底层参数。例如我们在和deepseek对话时的单个聊天窗口中的对话历史信息。这些上下文内容需要存储,并在后续需要时进行检索和调用。而广义上的记忆,还包括了模型内置记忆,大模型经过训练后,其参数以隐式方式编码了海量知识,这些也被称作参数记忆。参数记忆承载通用背景知识,外部记忆记录动态信息,两者共同构成智能体的完整记忆。
下面我们主要讨论模型外部记忆。记忆机制需要设计记忆模块来实现,负责写入、管理、读取三个环节形成闭环:不断记录重要信息,持续整理已有记忆,并在需要时提取相关知识支援决策。
首先,记什么?主要包括以下三类内容:
- 交互过程内部:即当前对话或当前任务执行过程中产生的信息。例如,在一次对话中用户提供的新事实、代理执行动作得到的观察结果,都属于当前回合内需记忆的内容。
- 指先前完成的对话或任务中累积的信息。智能体可以从过去对话中提取经验,如以前解决类似问题的方法、失败的教训等。
- 外部知识库:例如接入互联网、文档数据库等,使LLM能够记忆并检索不在训练语料中的新知识。这方面和RAG有关联之处。
其次,怎么记?这里就要提到记忆的一种常用分类:短期记忆和长期记忆。当智能体接收到环境知觉或对话内容后,需决定哪些信息需要写入记忆。短期记忆(Short-Term Memory, STM)主要用于存储当前会话或任务的上下文信息,具有较短的生命周期,通常只在当前任务中记住信息,帮助智能体在当前会话中记住用户的请求或问题。然而,短期记忆是有限的。例如,在处理深度研究任务时,智能体通常需要进行大量多轮检索,生成数十万甚至数百万 tokens。尽管 LLM 的上下文窗口不断扩大,但仍难以满足超长上下文任务的需求。长期记忆(Long-Term Memory, LTM)则用于保存长期积累的知识和经验,生命周期较长,可以跨会话和任务记住信息,如用户的姓名、年龄、位置、既往偏好等。在后续对话中,智能体应用将持续引用这些信息,提升交互体验。因此,能够通过记忆模块存储下来的历史则扮演长期记忆。信息通常被存储在向量数据库或其他类型的数据库中,目前一般普遍采用向量化存储。
什么时候取用?当智能体需要利用过往信息进行推理决策时,就要从记忆库中检索相关内容并载入到当前上下文中。优秀的记忆读取机制可以做到既召回有用的信息,又不引入无关噪音,并能在复杂任务中结合多条记忆进行综合推理。
记忆这里其实非常专业,在这里也只能浅浅地了解一些概念。随着人工智能逐渐演变为我们的助理和伙伴时,记忆机制则至关重要。然而更大的记忆就会产生更大的消耗,如何平衡高效和应用效果,对技术提出了很大的挑战。
四、深度研究智能体的效果评价——智能体实际应用价值体现
由于本文篇幅已经很长了(有点写累了zzz),关于大模型的评价、智能体的评价等,后续准备合并作为一个专门的主题进行单独的分享,毕竟这很有可能成为后续工作的切入点,要认真些。
写在最后
一切风靡一时的火热名词都值得我们谨慎对待。
关于智能体产品,很少有开源或纰漏原理和细节的,这让智能体看起来是更加的高深莫测。关于智能体相比直接使用大模型除了在工具能力上的加持外,其余方面是否真的能够有所助益,大家的评价也并不一致。所以当谈论到智能体的优秀时,我们到底在谈论什么呢?很显然,只是技术和理论上的进步是远远不够的。尽管目前我们看到那么多可用的MCP,但在实际的AI应用中能够真正可用的,以及让用户体会到的并非如网络上吹嘘的那么优秀。智能体会改变传统应用提供服务的方式,也可能会改变我们与服务的交互方式,但目前的实践来看,智能体的理念和特性做了验证,但价值还没有爆发出来。这种框架是否在未来几年随时有可能被新的框架革新?未知。
如何学习AI大模型 ?
“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。
这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。
我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。
我意识到有很多经验和知识值得分享给大家,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。【保证100%免费】🆓
CSDN粉丝独家福利
这份完整版的 AI 大模型学习资料已经上传CSDN,朋友们如果需要可以扫描下方二维码&点击下方CSDN官方认证链接免费领取 【保证100%免费】
读者福利: 👉👉CSDN大礼包:《最新AI大模型学习资源包》免费分享 👈👈
对于0基础小白入门:
如果你是零基础小白,想快速入门大模型是可以考虑的。
一方面是学习时间相对较短,学习内容更全面更集中。
二方面是可以根据这些资料规划好学习计划和方向。
👉1.大模型入门学习思维导图👈
要学习一门新的技术,作为新手一定要先学习成长路线图,方向不对,努力白费。
对于从来没有接触过AI大模型的同学,我们帮你准备了详细的学习成长路线图&学习规划。可以说是最科学最系统的学习路线,大家跟着这个大的方向学习准没问题。(全套教程文末领取哈)
👉2.AGI大模型配套视频👈
很多朋友都不喜欢晦涩的文字,我也为大家准备了视频教程,每个章节都是当前板块的精华浓缩。
👉3.大模型实际应用报告合集👈
这套包含640份报告的合集,涵盖了AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师,还是对AI大模型感兴趣的爱好者,这套报告合集都将为您提供宝贵的信息和启示。(全套教程文末领取哈)
👉4.大模型实战项目&项目源码👈
光学理论是没用的,要学会跟着一起做,要动手实操,才能将自己的所学运用到实际当中去,这时候可以搞点实战项目来学习。(全套教程文末领取哈)
👉5.大模型经典学习电子书👈
随着人工智能技术的飞速发展,AI大模型已经成为了当今科技领域的一大热点。这些大型预训练模型,如GPT-3、BERT、XLNet等,以其强大的语言理解和生成能力,正在改变我们对人工智能的认识。 那以下这些PDF籍就是非常不错的学习资源。(全套教程文末领取哈)
👉6.大模型面试题&答案👈
截至目前大模型已经超过200个,在大模型纵横的时代,不仅大模型技术越来越卷,就连大模型相关的岗位和面试也开始越来越卷了。为了让大家更容易上车大模型算法赛道,我总结了大模型常考的面试题。(全套教程文末领取哈)
为什么分享这些资料?
只要你是真心想学AI大模型,我这份资料就可以无偿分享给你学习,我国在这方面的相关人才比较紧缺,大模型行业确实也需要更多的有志之士加入进来,我也真心希望帮助大家学好这门技术,如果日后有什么学习上的问题,欢迎找我交流,有技术上面的问题,我是很愿意去帮助大家的!
这些资料真的有用吗?
这份资料由我和鲁为民博士共同整理,鲁为民博士先后获得了北京清华大学学士和美国加州理工学院博士学位,在包括IEEE Transactions等学术期刊和诸多国际会议上发表了超过50篇学术论文、取得了多项美国和中国发明专利,同时还斩获了吴文俊人工智能科学技术奖。目前我正在和鲁博士共同进行人工智能的研究。
资料内容涵盖了从入门到进阶的各类视频教程和实战项目,无论你是小白还是有些技术基础的,这份资料都绝对能帮助你提升薪资待遇,转行大模型岗位。
CSDN粉丝独家福利
这份完整版的 AI 大模型学习资料已经上传CSDN,朋友们如果需要可以扫描下方二维码&点击下方CSDN官方认证链接免费领取 【保证100%免费】
读者福利: 👉👉CSDN大礼包:《最新AI大模型学习资源包》免费分享 👈👈