周鸿祎曾经说过:“如果2023年是大模型之年,2024年是垂直应用之年,那2025年就是智能体之年!”
而就在1月24号,OpenAI 正式推出其首款 AI Agent智能体 Operator,这个 Operator 可以像真人一样流畅地浏览网页,精准地点击、滚动、填写表单,甚至能独立订机票、电商购物、订餐等相当复杂的任务。不同于传统的虚拟助手,这款 AI 助手真正具备了“行动”的能力,而非仅仅给出建议或答复。
那什么是AI Agent智能体?它是如何发展的,其工作核心是什么?具体上下游产业链如何,有哪些可以关注的公司,今天我们全面剖析一下:
一、定义&区别:
1、定义:
Agent(代理)一概念起源于哲学,描述了一种拥有欲望、信念、意图以及采取行动能力的实体。 在AI领域,被赋予了一层新的含义:具有自主性、反应性、交互性等特征的智能“代理”。能够基于目标和对现状能力的认知,在环境约束中,依赖特定资源和现有工具,找到行动规则并将行动拆解为必要的步骤,自主执行步骤,达成目标。
AI Agent智能体比较难理解,简单点,agent就好比你的私人代理。比如你是一家公司的总经理,那agent就是你的总经理助,你只需要给他设定目标和检查结果,其他都可交给他,他能把复杂流程的干的出色,还帮您分析给出最优建议,并最终向你汇报。
Al Agent 具备三个核心能力:
(1)独立思考: Al Agent 能够根据给定任务目标和约束条件,进行任务规划和问题拆解,形成执行步骤(即工作流);
(2)自主执行:能够调取各类组件和工具,按照执行步骤依次执行,实现任务目标;
(3)持续迭代: AlAgent能够自动记录任务目标、工作流和执行结果,基于结果反馈,沉淀专家知识和案例。
2、与Copilot 、LLM、RAG的联系&区别
**(1)**LLM
LLM,Large Language Model,即 大语言模型,是基于海量文本数据训练的深度学习模型,能够生成自然语言文本、深入理解文本含义,并处理各种自然语言任务,如文本摘要、问答、翻译等。简单理解是语言的逻辑推理,如我们常见的Chat GPT、文心一言、豆包、Kimi等
Agent 是智能体,LLM就是智能体的“大脑”,核心控制器,能提升AI Agent的理解力和泛化能力,使其能更好地处理多种任务和上下文信息。这增强了AI代理的自然语言处理能力,从而提供更个性化、连贯的交互体验。
AI Agent =LLM x (规划+记忆+工具+行动)
(2)RAG
RAG(Retrieval Augmented Generation)即检索增强生成,通过结合大型语言模型与检索机制,显著提升了生成内容的准确性和相关性。其核心在于利用向量数据库存储和检索大量上下文信息,以辅助生成模型在生成文本时做出更明智的决策。这种方法不仅提高了生成内容的质量,还增强了模型的解释性和可控性。
在大模型时代,由于之前训练好的大模型数据没有跟新,为了解决LLM知识有限的问题,需要把外部的新知识提供给LLM进行学习,让它理解之后表达出来,这时候就需要用到RAG技术,RAG 通过加入外部数据(如本地知识库、实时数据等)来增强 AI 模型的检索和生成能力,提高信息查询增强过程和生成质量。比如:文心一言的插件服务,支持把实时又或者私有化知识提供给LLM。
(3)Copilot
Al Copilot 是微软推出的一款人工智能助手,基于大模型技术的智能化应用,不仅可以聊天,还能搜索、编辑文档,生成图像等,提升工作效率。AI Copilot 基于微软的 Prometheus 模型,该模型基于 OpenAI 的 GPT-4 构建,具备强大的文本生成和数据处理能力
Copilot 需要人的指挥;Agent则是直接面对目标任务,具有自主记忆、推理、规划和执行的全自动能力,因此终极形态的AI Agent只需要用户的起始指令和结果的反馈,过程中并不需要人的介入。自主性是 Al Agent 和 Al Copilot 之间最大的区别。Al Copilot 是“副驾驶”,只是提供建议而非决策,Al Agent 是“主驾驶”需要真正做出决策并开展行动。
(4)三者的联系
AI Agent 会利用 LLM 的推理能力,把问题进行拆解,形成一个一个的小问题,并定义好这些小问题之间的前后关系,先处理哪个,再处理哪个。然后按照顺序,调用 LLM 、 RAG 或者外部工具,来解决每一个小问题,直至解决最初的问题。
Copilot是 Agent 的发展过程和探索,是单纯的copilot,基于企业自身的决策进行智能辅助、智能决策,还是最终呈现出Agent的形态。业界一个形象的比喻,如果说copilot是单纯的二维世界,那么Agent则是三维空间,从二维到三维,需要的不再是scaling law的强大魔力,而更多是业务关系的本质理解,即产业大模型的训练和出发点应该是什么。
二、 AI Agent 的发展
目前 AI Agent 已经在B端大量使用,按照AI在企业的业务流程智能化程度,可以将 Al Agent 分成四个阶段:执行者、辅助者、参与者、协调者。
第一阶段:“执行者”,按照既定规则和流程执行任务,不具备决策和调整流程能力,适用于重复性高场景;
第二阶段:“辅助者”,能够根据实际情况提供相关信息和建议,辅助业务人员做出决策;
第三阶段:“参与者”,具备一定自主决策能力,能够基于实际情况调整业务流程中的某些环节优化整个流程,但还是基于一定现有流程框架实现:
第四阶段:“协调者”,能够深入理解业务流程的目标和本质,根据环境条件变化,提出全新业务流程设计方案,执行到位,达成业务目标。
当前在B端企业办公等少数应用场景已经达到“参与者”阶段,还未出现“协调者”阶段应用。
另外,我们以感知能力、认知能力、执行能力、规划能力 4个维度来评判,AI agent 从单一的感知、利用督促来获得认知、半自动化的执行和规划,到超高精准的感知、利用环境自主学习提升认知、100%全面自动化执行计划和反思能力的迭代(类似于智能汽车无人驾驶的L1向L4完全无人驾驶趋势发展)
未来,其工作范式也将从面向过程VS面向目标转变,从以人为中心到以人为辅助的智能进化。
三、 AI Agent核心模块
AI Agent 核心四大模块的: 记忆、规划、工具和执行,我们认为,需要重点关注的是记忆、规划和工具相关组件的建设。
1、记忆包含短期记忆和长期记忆,
短期记忆:所有的上下文学习都是利用模型的短期记忆来学习的。反应的是 Agent 的当前情况,即在执行任务和与环境交互时产生的信息和数据,它存储了 Agnet 最近的感知输入、目标以及中间内部推理的结果;
长期记忆:为 Agent提供了在较长时间内保留和调用(无限)信息的能力,通常是通过利用外部向量存储和快速检索。包括语义记忆、程序记忆和情景记忆。其中,语义记忆是可用自然语言描述的记忆;程序记忆是企业内部的业务流程与 SOP; 情景记忆是过去业务情景的复现。
2、规划包含工作流、思维链、提示词工程等,主要是通过这些方式,充分激发大模型的能力,实现针对任务目标的问题拆解和任务规划。
规划模块将利用LLM来分解一个详细的计划,其中将包括子任务以帮助解决用户问题。用于任务分解的常用技术包括思路链和思念之树可分别分为单路径推理和多路径推理。
子目标和分解: Agent将大型任务分解为较小的、可管理的子目标,从而能够高效处理复杂任务,
反思和完善: Agent可以对过去的行为进行自我批评和自我反省,从错误中吸取教训并为未来的步骤进行改进,从而提高最终结果的质量。
3、工具分成执行类工具**、算法类工具和信息**类工具。
执行类:主要是成熟应用程序,如计算器等,弥补大模型的能力短板(不擅长数值计算等问题);
算法类:包含规则引擎算法、机器学习算法、深度学习算法以及基于大模型开发的 AI 算法;
信息类:主要是具备实效性工具,解决大模型信息滞后问题(如天气、日历等)。
综合来看,【记忆】和【规划】是当前学术概念下的关键功能点,但受限于市场发展早期,在实际的商业产品落地中【记忆】和【规划】能力未必能完全呈现。
四、市场空间&格局
2025年被定义于 AI Agent 的元年,先看训练数据上,2022年,全球数据规模已达到103ZB (1ZB=十万万亿字节),中国数据规模达到23.9ZB; 预计2027年,全球数据规模可达到 284.3ZB,中国数据量规模则可达到 76.6ZB,近五年的CAGR为 26%,超过全球增长速度。
国产大模型自2023年7月开始进行密集发布,截至2023年7月,国产大模型累计数量达到300个,并且涉及金融、制造、电商、法律、教育、医疗、娱乐等多个垂直细分领域。
中国 AIAgent市场潜力无限,在企业B端、消费C端均大有可为。2023年中国AI Agent市场规模为554亿元,预计至2028年将达8520亿元,其年均复合增长率为72.7%。AI Agent于2023年正式引入行业并重新定义,随着AI的发展,垂直领域的AI Agent 正逐渐成为新宠,其市场规模预计可达SaaS的十倍,创造超过 3000亿美元的独角兽企业。
AI Agent市场规模包括ToC端和 ToB端的应用价值:
1)在B端场景下,AIAgent将对 SaaS应用进行全面重构,与传统知识库结构化管理模式相比,AIAgent的向量数据库能自动学习和理解文档,实现更加高效知识管理;
2)在C端场景下,AAgent作为生成式AI的商业化应用,可以广泛应用于电商、教育、旅游、酒店以及客服等行业,带来传统行业的升级转型。
五、AI Agent产业链分析
AI Agent产业链上游可以分为基础设施与技术供应商;中游为 AI Agent研发与集成商,主要可以分为系统集成厂商、软件开发厂商以及解决方案供应商,其中目前大部分企业正在处于优化产品和探索应用场景阶段;下游主要为应用与终端客户。
- 上游:基础设施与技术提供商
国内主要可以分为AI芯片、服务器集成厂商、算法框架、大模型厂商、数据服务商以及云计算平台等
(1)算法框架:业内通常使用谷歌Tensorflow和脸书Pytorch作为AI算法框架,昇思MindSpore于2023年打造业界首个AI融合框架,提供全面的分布式并行能力。
(2)大模型:AI Agent的核心驱动力是大语言模型。因此,大型的开发者在产业链中占据重要地位,提供基础模型和算法支持,使得AI Agent能够具备感知、理解、决策和执行的能力。2024年国产大模型前十名单:字节豆包、月之暗面Kimi、百度文心一言、清华智谱AI、科大讯飞讯飞星火、昆仑万维天工等
(3)AI 芯片 :是灵魂,当前主流的AI agent 芯片主要分为三类,GPU、FPGA、ASIC:
①、GPU:英伟达NVIDIA一家独大,占据81%的市场份额,其次是AMD和Intel,分别占据18%和1%的市场份额;国内厂商:寒武纪、景嘉微、海光信息、天数智芯,功能和应用领域等方面都有了提升;
②、ASIC :博通AVGO、美满电子MRVL 两家全球巨头;国内寒武纪、芯原股份、嘉楠科技 CAN 也在奋力直追;
③、FPGA:安路科技是国内FPGA业务领军企业;复旦微电是FPGA芯片重要供应商。
(4)服务器: 国内龙头公司:inspur浪潮、 Sugon 中科曙光和华为;
(5)数据服务:国外:澳大利亚的Appen;国内:浪潮 、 标贝科技是龙头
2.中游AI Agent研发与集成商:
负责将大模型与其他技术组件(如规划、记忆、工具使用和行动模块)相结合,开发出具有特定功能和应用场景的 AI Agent产品。通常拥有强大的研发团队和技术实力,能够不断优化和迭代产品以满足市场需求。
(1)系统集成:国内头部是–联想 、科大讯飞、用友 、钉钉 、 况客科技、 Moka公司
(2)软件平台开发:面壁智能 、实在智能、汇智智能 、澜码科技 、联汇等都是国内不错的公司;
(3)解决方案提供商: 华为云 、百度智能云、 阿里云、 腾讯云 京东云 天翼云等国内公司。
3.下游应用厂商:
AI Agent的应用场景广泛,包括智能客服、个人助理、自动驾驶、软件开发、财务管理等多个领域。应用厂商根据不同行业和场景的需求,利用A Agent 技术开发出各种应用产品和服务,直接面向终端用户,负责产品的推广和销售。
(1)应用开发者:旷视、海康微视、云从科技、云知声等巨头
(2)行业服务商:科大讯飞、地平线、海尔智家、大疆、格灵深瞳等企业
附AI Agent 产业链图谱
六、AI Agent 的总结
随着OpenAI 的 Operator 智能体采用了“计算机使用智能体(Computer-Using Agent,CUA)模型,结合了 GPT-4o 的视觉识别能力和高级推理技术,可以通过截图“理解”网页,并像人类一样精准操作鼠标和键盘、进行交互,无需使用特定于操作系统或网络的 API,让AI 智能体实现跨越式进步。
目前,已经有许多的大厂纷纷涌入这场AI Agent 攻城略地,就如最近微软上线 Microsoft 365 Copilot Chat,通过 GPT-4o AI 模型驱动,为 微软 365 商业用户提供安全的 AI 聊天体验,并接入按用量计费的 Agents 应用;而国内、字节豆包、百度、小米等多家科技公司也在疯狂厮杀,已在旗舰产品中融入大模型,促使应用生态调整接口。头部科技公司均在悄然发力C端市场,推出了自研Al agent,并在新旗舰产品中融入大模型促使应用生态调整接口,逐步形成模型生态。
未来,AI Agent的市场规模可能是SaaS市场的10倍,甚至部分取代Saas,相信很快,AI Agent将迈向更高层次的协作与协同工作阶段,AI Agent集群与AI Agent网络,以空前规模、洪荒之势重新定义生产力和问题解决能力。而垂直细分的AI Agent应用将遍地生花,其应用领域之广,将占领人们生活的方方面面。。。
最后,建议关注的AI Agent 应用公司如下:
七、建议关注标的
AI Agent 应用:科大讯飞、金山办公、彩讯股份、焦点科技、鼎捷数智、泛微网络、拓尔思、迈富时、汉得信息、致远互联、金蝶国际等;
AI 垂类应用:三六零、万兴科技、昆仑万维、虹软科技、润达医疗、美图公司、商汤-W 等。
AI大模型学习福利
作为一名热心肠的互联网老兵,我决定把宝贵的AI知识分享给大家。 至于能学习到多少就看你的学习毅力和能力了 。我已将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。
大模型&AI产品经理如何学习
求大家的点赞和收藏,我花2万买的大模型学习资料免费共享给你们,来看看有哪些东西。
1.学习路线图
第一阶段: 从大模型系统设计入手,讲解大模型的主要方法;
第二阶段: 在通过大模型提示词工程从Prompts角度入手更好发挥模型的作用;
第三阶段: 大模型平台应用开发借助阿里云PAI平台构建电商领域虚拟试衣系统;
第四阶段: 大模型知识库应用开发以LangChain框架为例,构建物流行业咨询智能问答系统;
第五阶段: 大模型微调开发借助以大健康、新零售、新媒体领域构建适合当前领域大模型;
第六阶段: 以SD多模态大模型为主,搭建了文生图小程序案例;
第七阶段: 以大模型平台应用与开发为主,通过星火大模型,文心大模型等成熟大模型构建大模型行业应用。
2.视频教程
网上虽然也有很多的学习资源,但基本上都残缺不全的,这是我自己整理的大模型视频教程,上面路线图的每一个知识点,我都有配套的视频讲解。
(都打包成一块的了,不能一一展开,总共300多集)
因篇幅有限,仅展示部分资料,需要点击下方图片前往获取
3.技术文档和电子书
这里主要整理了大模型相关PDF书籍、行业报告、文档,有几百本,都是目前行业最新的。
4.LLM面试题和面经合集
这里主要整理了行业目前最新的大模型面试题和各种大厂offer面经合集。
👉学会后的收获:👈
• 基于大模型全栈工程实现(前端、后端、产品经理、设计、数据分析等),通过这门课可获得不同能力;
• 能够利用大模型解决相关实际项目需求: 大数据时代,越来越多的企业和机构需要处理海量数据,利用大模型技术可以更好地处理这些数据,提高数据分析和决策的准确性。因此,掌握大模型应用开发技能,可以让程序员更好地应对实际项目需求;
• 基于大模型和企业数据AI应用开发,实现大模型理论、掌握GPU算力、硬件、LangChain开发框架和项目实战技能, 学会Fine-tuning垂直训练大模型(数据准备、数据蒸馏、大模型部署)一站式掌握;
• 能够完成时下热门大模型垂直领域模型训练能力,提高程序员的编码能力: 大模型应用开发需要掌握机器学习算法、深度学习框架等技术,这些技术的掌握可以提高程序员的编码能力和分析能力,让程序员更加熟练地编写高质量的代码。
1.AI大模型学习路线图
2.100套AI大模型商业化落地方案
3.100集大模型视频教程
4.200本大模型PDF书籍
5.LLM面试题合集
6.AI产品经理资源合集
👉获取方式:
😝有需要的小伙伴,可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓