2025: AI Agent(智能体) 元年
在人工智能的快速发展进程中,AI Agent 成为备受瞩目的焦点,被视为推动人工智能从感知智能迈向认知智能与行动智能融合的关键力量。那么,究竟什么是 AI Agent 呢?
AI Agent,即人工智能代理,是一种能够感知环境、进行推理并采取行动以实现特定目标的智能系统。它具备自主性、感知能力、推理与决策能力、学习能力以及交互能力等核心特征 。
以自动驾驶汽车为例,它能通过传感器感知路况信息,自主分析并做出驾驶决策,如调整车速、变换车道等,展现出高度的自主性和环境适应性;而语音助手则借助麦克风感知用户的语音指令,经过自然语言处理和推理,为用户提供相应的服务,实现人机交互。
从类型上看,AI Agent 基于功能可分为简单反射型 Agent、基于模型的反射型 Agent、目标驱动型 Agent、效用驱动型 Agent 和学习型 Agent;基于应用领域可分为虚拟 Agent、物理 Agent、游戏 Agent 和商业 Agent 等。
不同类型的 AI Agent 在各自领域发挥着独特作用,如虚拟 Agent 中的聊天机器人能随时解答用户疑问,物理 Agent 中的机器人可在工业生产中完成复杂任务。
AI Agent 的应用场景极为广泛,在智能助手领域,它能帮助用户完成各类日常任务,提升生活便利性;自动驾驶领域,实现车辆的安全、高效行驶;工业自动化领域,提高生产效率和质量;医疗诊断领域,辅助医生分析病情,提供准确的诊断建议;游戏 AI 领域,为玩家带来更具挑战性和趣味性的游戏体验;金融交易领域,根据市场数据实时做出交易决策,实现资产的优化配置。
为何 2025 年被称作 AI Agent 元年呢?一方面,众多科技巨头纷纷加大在 AI Agent 领域的布局与投入。微软建立 Copilot Studio 平台,吸引超 10 万家企业创建或编辑 AI Agent;谷歌推出商用 AI Agent 市场,构建一站式商用生态;OpenAI 计划发布 Operator 工具,可在用户指示下自主完成任务 。
国内腾讯推出 “腾讯元器” 平台,阿里巴巴国际站发布 AI 采购智能体,百度的文心智能体平台吸引大量企业和开发者,字节跳动发布 AgentBuilder 降低开发难度,智谱 AI 推出 AutoGLM 适配多种应用场景。另一方面,AI Agent 在各行业的应用不断落地并取得显著成果,市场对其需求呈现爆发式增长。
目前再全球Agent 开发届,主要有4种主流的 AI Agent 框架:CrewAI,LangGraph, LamaIndex (Meta) 和 AutoGen (微软)
Crew AI:简洁直观的多智能体框架
Crew AI 是一个基于角色扮演、为构建具备自主能力的多智能体系统而设计的高层 Python 开发框架 。它并非为通用 LLM 应用设计的底层框架,而是基于底层框架 LangChain 之上的更高层抽象,提供了一组专用于多智能体系统构建所需的模块与工具。
Crew AI 的核心概念是 Crew,即由多个智能体组成的小团队。团队中的智能体根据设定的流程策略,借助必要的工具,自主协作完成一系列任务。其智能体具有高度可定制性,开发者可通过简单定义创建智能体,并为其设定角色、目标、背景、可使用的工具与 LLM 等。
智能体能够自主决策、执行任务、使用工具,还可与其他智能体通信、转发任务。例如在一个内容创作场景中,可创建研究员智能体负责收集资料,作家智能体负责撰写内容,它们各自明确的角色和任务,能高效协作完成创作。
Crew AI 的优势显著。它基于提示的操作方式极为简单,主要通过编写提示来控制代理行为,学习成本低,对编程知识要求不高,即使是非技术人员也能快速上手,非常适合初学者和非技术人员。
同时,它的开发速度快,能够在数分钟内创建上百个代理,实现规模化,适合需要快速构建原型或演示的场合 。在与语言模型的协作方面,Crew AI 通过与 LangChain 的集成,兼容大多数 LLM 提供商和本地 LLM,具有一定的灵活性,在一定范围内,开发者可以方便地定制代理的行为和属性,以满足不同的应用需求。
在客户服务场景中,可快速创建多个代理,分别负责解答不同类型的客户问题,提升客服效率;在市场调研中,代理们能协作收集、整理市场信息,为决策提供支持。
然而,Crew AI 也存在一些局限性。在功能深度上有所欠缺,在处理复杂的编程或逻辑任务时,能力相对不足。其代理之间的交互有时不够稳定,可能出现 Bug,影响使用体验 。并且,与其他一些框架相比,Crew AI 的社区资源有限,文档和社区支持较少,这在一定程度上会增加开发者获取帮助和学习交流的难度。
LangGraph:灵活强大的智能体框架
LangGraph 是基于 LangChain 构建的多智能体框架,以其高度的灵活性和可定制性著称 。它采用有向循环图(Directed Cyclic Graph)设计理念,能够清晰地表示代理之间复杂的依赖关系和交互流程,为各种应用场景提供灵活的解决方案 。
LangGraph 的核心在于其图结构,通过节点(Nodes)和边(Edges)来定义智能体的行为和交互。节点可以是智能体、工具或其他可执行的函数,边则表示节点之间的连接和执行顺序。这种设计使得 LangGraph 能够处理复杂的任务流程,支持循环和条件分支,适应各种动态变化的场景 。
在一个智能客服系统中,不同的节点可以分别负责问题分类、信息检索、答案生成等任务,边则定义了这些任务的执行顺序和数据流向,通过条件边还能根据问题的类型和难度动态选择不同的处理路径。
LangGraph 的优势显著。它具有强大的扩展能力,支持几乎任何类型的多代理编排应用,满足高度定制化需求,开发者可以根据需求,自由设计代理的逻辑和交互方式 。在智能投顾领域,可通过定制不同的智能体节点,分别负责市场分析、风险评估、策略制定等任务,为用户提供个性化的投资建议 。
作为 LangChain 的扩展部分,它享有其活跃的社区和大量资源,大量的示例、文档和社区讨论,能帮助开发者快速解决问题 。并且,LangGraph 与开源 LLM 和各种 API 接口良好兼容,提供更多选择,方便开发者集成不同的语言模型和外部工具。
然而,LangGraph 也存在一些不足。它的学习曲线陡峭,需要开发者具备较强的编程能力,对图结构和逻辑流有深入理解,这对于编程新手来说,可能需要投入更多时间和精力 。目前其文档有待完善,可能不足以覆盖所有功能,需要开发者自行探索,在一定程度上增加了学习和使用的难度 。
LangGraph 的发展与 LangChain 紧密相关,随着 LangChain 生态的不断发展,LangGraph 也在持续演进,不断完善功能和性能。在实际应用中,LangGraph 在自然语言处理、智能决策、自动化流程等领域都有出色的表现。在科研辅助平台中,多个智能体可通过 LangGraph 协作,完成从文献检索、数据分析到报告撰写的整个科研流程,提高科研效率 。
AutoGen:面向软件开发的智能框架
AutoGen 是微软推出的开源多代理对话框架,旨在助力开发者创建基于大型语言模型(LLM)的智能应用 。它主要涉及用户代理(User Agent)和助手代理(Assistant Agent)两个核心角色 。用户代理负责提出编程需求或编写提示词,助手代理则负责生成和执行代码,并将结果反馈给用户代理或其他智能体 。在一个自动化代码审查系统中,用户代理提交代码片段,助手代理就能对代码进行审查、优化,并返回改进建议。
AutoGen 的优势明显。在多智能体编排方面表现出色,尤其擅长处理代码任务,能够高效地完成复杂的软件开发和代码生成任务 。得益于微软的强大支持,它拥有活跃的社区和丰富的资源,大量的示例、文档和社区讨论,为开发者提供了有力的帮助,降低了上手难度 。同时,AutoGen 具有良好的扩展性,开发者可以方便地定制和扩展,以满足特定需求,在面对不同的软件开发场景时,能灵活调整智能体的功能和交互方式 。
然而,AutoGen 也存在一些局限性。它对非编程背景的用户不够友好,操作不够直观,学习门槛较高 。在本地部署大语言模型(LLMs)时,配置过程繁琐,需要额外配置代理服务器,增加了使用的复杂性 。并且,在非软件开发领域,其表现相对较弱,不如一些专门针对特定领域的工具 。
AutoGen 自推出以来,在软件开发领域得到了广泛应用,不断优化功能和性能,与微软的其他技术和产品进行深度整合。未来,AutoGen 有望与更多先进技术结合,如低代码开发平台,进一步降低开发门槛,提高开发效率;与自动化测试工具集成,实现软件测试的自动化和智能化 。在实际应用中,AutoGen 在多模块协同开发中发挥着重要作用,不同的助手代理可负责不同模块的开发和测试,用户代理协调整体进度,提高软件开发的协同性和效率 。
LamaIndex:数据框架与大模型的桥梁
LlamaIndex 是基于大型语言模型(LLM)的应用程序的数据框架,专注于将自定义数据源连接到大型语言模型,为增强 LLM 应用程序提供关键工具 。它主要提供数据摄取、数据索引和查询接口等功能,能够使 LLM 大规模访问和解释私有数据,而无需在新数据上重新训练模型 。在企业文档管理中,LlamaIndex 可将企业内部的文档、数据库等数据与 LLM 连接,实现文档的智能检索和问答,员工能通过自然语言查询获取所需信息。
LlamaIndex 的核心在于其强大的数据处理和索引能力。它使用检索增强生成(RAG)系统,将大型语言模型与私有知识库相结合 。在索引阶段,LlamaIndex 能有效地将私有数据索引为矢量索引,创建特定于领域的可搜索知识库,输入的文本文档、数据库记录等数据会被转换为捕获其语义含义的数字向量或嵌入,便于跨内容进行快速相似性搜索 。
在查询阶段,RAG 管道会根据用户的查询搜索最相关的信息,并将其与查询一起提供给 LLM,以创建准确的响应,让 LLM 能够访问其初始培训中可能未包含的当前和更新信息 。
LlamaIndex 的优势显著。它对数据的处理能力强大,支持从 API、数据库、PDF 等多种数据源中提取数据,还提供灵活的数据连接器,满足不同场景的数据需求 。在医疗领域,可从电子病历系统、医学文献数据库等数据源提取数据,为医生提供智能辅助诊断。其使用简单,高级 API 允许初学者仅用五行代码即可入门,快速实现数据摄取和查询;低级 API 则为高级用户提供对数据摄取、索引、检索等的完全控制,满足复杂需求 。并且,LlamaIndex 具有高度的定制性,用户可以根据需求自由定制和扩展,以适应不同的应用场景。
然而,LlamaIndex 也存在一些局限性。与一些专门的智能体框架相比,它在智能体协作和任务编排方面的功能相对较弱,不太适合处理需要复杂智能体交互的场景 。在多智能体协同完成复杂项目管理任务时,可能无法像专业框架那样高效地协调智能体之间的工作 。在处理大规模数据时,索引构建和查询的性能可能会受到一定影响,需要进一步优化 。
LlamaIndex 在数据处理和与 LLM 结合方面具有独特优势,未来有望在更多领域得到应用,如金融领域的风险评估、教育领域的智能辅导等 。通过不断优化性能和扩展功能,LlamaIndex 将为 LLM 应用的发展提供更强大的数据支持 。
4大框架优劣对比
Crew AI
优势:
- 简洁直观,学习成本低,适合初学者和非技术人员。
- 开发速度快,支持快速创建大量代理。
- 高度可定制,支持角色、目标、工具等设定。
- 与 LangChain 集成,兼容多种 LLM 提供商。
- 适合多智能体协作场景。
劣势:
- 功能深度有限,处理复杂编程或逻辑任务能力不足。
- 代理间交互不够稳定,可能出现 Bug。
- 社区资源有限,文档和社区支持较少。
LangGraph
优势:
- 高度灵活和可定制,支持复杂任务流程。
- 图结构设计清晰,适合处理动态场景。
- 强大的扩展能力,支持几乎任何类型的多代理编排。
- 与 LangChain 集成,社区资源丰富。
- 兼容开源 LLM 和 API 接口。
劣势:
- 学习曲线陡峭,需要较强的编程能力。
- 文档不够完善,部分功能需自行探索。
- 对图结构和逻辑流理解要求较高。
AutoGen
优势:
- 擅长多智能体编排,尤其适合代码任务。
- 微软支持,社区活跃,资源丰富。
- 扩展性强,支持定制和扩展。
- 在软件开发领域表现优异。
劣势:
- 对非编程背景用户不够友好,操作不够直观。
- 本地部署 LLM 配置繁琐。
- 在非软件开发领域表现较弱。
LlamaIndex
优势:
- 强大的数据处理能力,支持多种数据源。
- 使用简单,高级 API 适合初学者。
- 高度定制性,支持复杂数据需求。
- 专注于数据与 LLM 的连接,适合数据密集型应用。
劣势:
- 智能体协作和任务编排功能较弱。
- 处理大规模数据时性能可能受限。
- 不适合需要复杂智能体交互的场景。
总结:
-
Crew AI 适合初学者和快速原型开发,但在复杂任务和稳定性上有所欠缺。
-
LangGraph 适合需要高度定制和复杂流程的场景,但学习成本较高。
-
AutoGen 在软件开发领域表现出色,但对非编程用户不够友好。
-
LlamaIndex 专注于数据处理和 LLM 连接,适合数据密集型应用,但在智能体协作方面较弱。
如何学习大模型 AI ?
由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。
但是具体到个人,只能说是:
“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。
这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。
我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。
我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。
第一阶段(10天):初阶应用
该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。
- 大模型 AI 能干什么?
- 大模型是怎样获得「智能」的?
- 用好 AI 的核心心法
- 大模型应用业务架构
- 大模型应用技术架构
- 代码示例:向 GPT-3.5 灌入新知识
- 提示工程的意义和核心思想
- Prompt 典型构成
- 指令调优方法论
- 思维链和思维树
- Prompt 攻击和防范
- …
第二阶段(30天):高阶应用
该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。
- 为什么要做 RAG
- 搭建一个简单的 ChatPDF
- 检索的基础概念
- 什么是向量表示(Embeddings)
- 向量数据库与向量检索
- 基于向量检索的 RAG
- 搭建 RAG 系统的扩展知识
- 混合检索与 RAG-Fusion 简介
- 向量模型本地部署
- …
第三阶段(30天):模型训练
恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。
到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?
- 为什么要做 RAG
- 什么是模型
- 什么是模型训练
- 求解器 & 损失函数简介
- 小实验2:手写一个简单的神经网络并训练它
- 什么是训练/预训练/微调/轻量化微调
- Transformer结构简介
- 轻量化微调
- 实验数据集的构建
- …
第四阶段(20天):商业闭环
对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。
- 硬件选型
- 带你了解全球大模型
- 使用国产大模型服务
- 搭建 OpenAI 代理
- 热身:基于阿里云 PAI 部署 Stable Diffusion
- 在本地计算机运行大模型
- 大模型的私有化部署
- 基于 vLLM 部署大模型
- 案例:如何优雅地在阿里云私有部署开源大模型
- 部署一套开源 LLM 项目
- 内容安全
- 互联网信息服务算法备案
- …
学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。
如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。