智能体(Agent)是基于大型语言模型(LLM)的执行单元,通过规划、记忆、工具与行动协同工作。智能体工作流(Agentic Workflow)则是利用多个这样的智能体协作,以自动化和优化业务流程,将复杂任务分解为可管理的子任务,并通过迭代达成目标。
电影《钢铁侠》中的智能助手J.A.R.V.I.S.(Just A Rather Very Intelligent System,即“只是一个相当聪明的系统”)为我们描绘了一个未来AI Agent的雏形。
J.A.R.V.I.S.,作为托尼·斯塔克(钢铁侠)的得力助手,不仅拥有强大的数据处理能力,还能精准理解并执行主人的指令,甚至能在关键时刻提供关键建议。
一、Agent
什么是LLM Agent(智能体)?大模型Agent是一种构建于大型语言模型(LLM)之上的智能体,它具备环境感知能力、自主理解、决策制定及执行行动的能力。
Agent是能够模拟独立思考过程,灵活调用各类工具,逐步达成预设目标。在技术架构上,Agent从面向过程的架构转变为面向目标的架构,旨在通过感知、思考与行动的紧密结合,完成复杂任务。
大模型Agent由规划、记忆、工具与行动四大关键部分组成,分别负责任务拆解与策略评估、信息存储与回忆、环境感知与决策辅助、以及将思维转化为实际行动。
一、规划(Planning):
规划是Agent的思维模型,负责拆解复杂任务为可执行的子任务,并评估执行策略。通过大模型提示工程(如ReAct、CoT推理模式)实现,使Agent能够精准拆解任务,分步解决。
二、记忆(Memory):
记忆即信息存储与回忆,包括短期记忆和长期记忆。短期记忆用于存储会话上下文,支持多轮对话;长期记忆则存储用户特征、业务数据等,通常通过向量数据库等技术实现快速存取。
三、工具(Tools):
工具是Agent感知环境、执行决策的辅助手段,如API调用、插件扩展等。通过接入外部工具(如API、插件)扩展Agent的能力,如ChatPDF解析文档、Midjourney文生图等。
四、行动(Action):
行动是Agent将规划与记忆转化为具体输出的过程,包括与外部环境的互动或工具调用。Agent根据规划与记忆执行具体行动,如智能客服回复、查询天气预报、AI机器人抓起物体等。
二、Agentic Workflow
什么是Agentic Workflow(智能体工作流)?Agentic Workflow是一种新兴的工作流程管理方法,它结合了人工智能(AI)智能体(Agent)来自动化和优化业务流程。
Agentic Workflow以大型语言模型(LLM)为技术基础,通过多个AI Agent的协作,将复杂任务分解为可管理的子任务,并通过迭代优化完成目标的系统。
AI Agent作为核心执行单元,每个Agent都具备特定的功能,如数据分析、决策生成等。通过LLM(大语言模型),Agent实现了“大脑”级别的规划能力。在执行任务时,运用提示工程中的思维链(Chain-of-Thought)和自我反思等技术,来指导Agent分解任务、动态调整策略。同时,构建多Agent协同框架,集成RAG(检索增强生成)等技术,提升Agent处理能力。
链式、并行化、路由工作流是 Workflow 实现标准化的三种典型模式,而 Agent 通过动态决策能力扩展了 Workflow 的应用边界,二者共同构成智能体工作流。
一、链式工作流模式(Chain Workflow)
将多个步骤按线性序列组织,一个步骤的输出作为下一个步骤的输入,形成一个连续的处理链。通过明确的步骤顺序,简化了复杂任务的处理流程。
每个步骤都依赖于上一步的输出,确保了数据的准确性和一致性。
适用场景:任务具有明确顺序,且每个步骤都依赖于前一步的输出,如新闻推荐系统中的内容筛选和排序。
二、并行化工作流模式(Parallelization Workflow)
通过同时执行多个任务或处理多个数据集,提高数据密集型操作的效率。通过并行处理多个任务,显著缩短了整体处理时间。这样能够合理分配计算资源,提高系统的吞吐量。同时易于扩展以处理更大规模的数据和任务。
适用场景:任务可以独立执行且没有相互依赖,需要快速处理大量数据或多个请求,如大数据分析、实时监控和复杂决策支持系统。
三、路由工作流模式(Routing Workflow)
根据输入条件动态指导执行路径,使系统能够在没有预定义序列的情况下适应不同情况。能够根据不同的输入条件选择不同的处理路径,将任务路由到最适合处理的节点,提高了资源利用率。
适用场景:任务处理依赖于输入特征,且不同特征需要不同的处理流程,如金融服务平台根据用户感兴趣的主题将请求路由到不同的API端点。
如何学习大模型 AI ?
由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。
但是具体到个人,只能说是:
“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。
这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。
我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。
我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。
第一阶段(10天):初阶应用
该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。
- 大模型 AI 能干什么?
- 大模型是怎样获得「智能」的?
- 用好 AI 的核心心法
- 大模型应用业务架构
- 大模型应用技术架构
- 代码示例:向 GPT-3.5 灌入新知识
- 提示工程的意义和核心思想
- Prompt 典型构成
- 指令调优方法论
- 思维链和思维树
- Prompt 攻击和防范
- …
第二阶段(30天):高阶应用
该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。
- 为什么要做 RAG
- 搭建一个简单的 ChatPDF
- 检索的基础概念
- 什么是向量表示(Embeddings)
- 向量数据库与向量检索
- 基于向量检索的 RAG
- 搭建 RAG 系统的扩展知识
- 混合检索与 RAG-Fusion 简介
- 向量模型本地部署
- …
第三阶段(30天):模型训练
恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。
到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?
- 为什么要做 RAG
- 什么是模型
- 什么是模型训练
- 求解器 & 损失函数简介
- 小实验2:手写一个简单的神经网络并训练它
- 什么是训练/预训练/微调/轻量化微调
- Transformer结构简介
- 轻量化微调
- 实验数据集的构建
- …
第四阶段(20天):商业闭环
对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。
- 硬件选型
- 带你了解全球大模型
- 使用国产大模型服务
- 搭建 OpenAI 代理
- 热身:基于阿里云 PAI 部署 Stable Diffusion
- 在本地计算机运行大模型
- 大模型的私有化部署
- 基于 vLLM 部署大模型
- 案例:如何优雅地在阿里云私有部署开源大模型
- 部署一套开源 LLM 项目
- 内容安全
- 互联网信息服务算法备案
- …
学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。
如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。