agent:未来服务的基本单位
上图是open AI 提出的AI发展五大阶段。GPT4还处于L1,去年底发布o1就来到了L2(最新的是o3和o4mini),同时山姆奥特曼宣布今年是agent年,上半年密集发布task,operator,deep research(DR可看做专门做研究的agent)都属于agent,国内则是manus火了一把,自称为首个通用agent。两年时间就来到L3,AI的飞速发展令人咋舌。
Agent,简单理解,就是一个能自主感知环境、理解任务、采取行动的智能体。比如你和 ChatGPT 对话时,其实它就是一个典型的“写作Agent”,再比如搜索+总结的“AI助手”(如 Claude / perplexity ),能自动完成多步操作:搜索、过滤、生成。agent不仅告诉你“如何做”,更会帮你去做,未来很多工作都会由agent来完成,通俗来讲,他们相当于一个个AI工人。
当他们能做的事越来越多,那就越来越需要互相协作,另一方面,人的需求往往是复杂的、由若干个单一需求构成,因此,多agent协作系统出现了——MCP(Multi-Agent Collaboration Platform)
MCP(Multi-Agent Collaboration Platform):多Agent协同的大脑中枢
MCP 是一个协调多个智能体Agent发现彼此、互相调用、分工协作、完成更复杂任务的“调度平台 / 操作系统”。
比如,想让AI做个完整任务:
“请做一份关于新能源汽车未来趋势的10页PPT,并加上图表”
GPT本体(ChatGPT)并不具备所有能力,因此在有 MCP 的系统中,它会调用多个子Agent:
子Agent | 功能 | GPT调用行为 |
---|---|---|
信息检索Agent | 用搜索API查询资料 | GPT调用 Search API |
文案生成Agent | 分章节撰写PPT文字 | GPT自身执行文案 |
数据图表Agent | 查找数据并画图 | GPT调用代码解释器绘图 |
配图Agent | 生成插图 | GPT 调用DALL·E |
汇总排版Agent | 把文字+图打包成PPT | GPT调用Python构建PPT |
总结来说,Agent = 一个可以自主完成任务的小智能体(可以是GPT、视觉模型、控制器、机器人等);MCP = 多个Agent背后的“协调系统”,像调度员 + 操作系统 + 项目经理。
OPEN AI, manus都已经具备MCP的雏形,但是很多功能、边界都还在试探,比如OPEN AI极为强调尊重用户隐私。国内百度、阿里等云服务商也在快速研发。
很明显,MCP才是面向C端用户的最终AI应用。
基础大模型 → agent → MCP → 用户
汽车、无人机、机器人——物理智能体
Agent 不只是在线聊天的AI,它也可以是“现实世界中具有执行能力的智能终端”。
-
智能汽车Agent,将人/货送往目的地;
-
无人机agent,巡航、拍照、投送、探测;
-
服务机器人agent,接待、引导、送递物品;
-
仓储机器人agent,拣货,搬运,扫码。
其实智能硬件终端更符合agent的定义:
-
感知:摄像头、雷达、麦克
-
理解:SOC或端侧AI
-
执行:电机、机械臂/手、云台
线下MCP:未来车企提供服务的中控大脑
随着task,operator这些agent的发布,openAI正逐渐往MCP转化,并且正在快速蚕食现在智能生态(比如Google搜索流量急剧下降),毕竟有大模型这一基础智能,做agent这些C端应用太现成了。考虑到AI应用以自然语言交互为主,随着模型智能的进一步提升,operator成长甚至超越今天的Google、META等巨头也在情理之中。当然Google的GEMINI性能也很强,并且最近的I/O大会发布的一系列应用说明这个昔日巨头正在奋起直追。
但是openAI再往线下渗透,会碰到明显的瓶颈,就是智能汽车(物理agent)。
大模型+线上agent=线上MCP
大模型+物理agent=线下MCP
同理,线下MCP要做出生态,必须拥有最强的物理agent资源。目前来看,车企做线下MCP的条件最好。
几个先发优势:
-
无人机+车,机器狗+车,机器人+车的配套场景已经出现
-
出行、运人是高频需求
-
车端SOC算力相对最强,群体智能主从网络适合做主节点
-
技术、供应链高度重叠,车企倾向自产/控股机器人/无人机等智能终端
滴滴、waymo等出行公司其实已经是个单纯运人agent的MCP,只是还需要人类司机操作。细分到行业,跟物流、运输、出行相关的都可以发展成“线下硬件智能体MCP”平台,比如Logistics MCP(顺丰) ,Mobility MCP(滴滴、Waymo),Retail MCP(盒马)。
人类的需求需要线上线下agent共同协作的混合MCP
想象这个例子:
你跟AI说,“明早9点给我叫车去虹桥机场,路上把我告诉你的方案做成PPT跟项目组开个线上会议,并安排一周后的假期”
这个需求背后的“任务流”是:
1. Robotaxi Agent → 安排接车+路径+泊车
2. 文档秘书Agent → 做PPT,通知开会,做会议记录,分发
3. 度假agent → 酒店、机票、景点门票
4. 语音/微信Agent → 通知你“车已到”
要完成这个任务,需要线上MCP和线下MCP协同:智能体之间互通互调、状态同步、任务编排,但是用户只会跟一个AI交互,所以很明显,未来的巨型MCP是要调度所有的agent来完成任务,而不会区分线上还是线下,虚拟还是物理实体。
目前车企还只是聚焦于自动驾驶等技术的实现,鲜少见往智能生态的布局。但是依据目前AI的发展速度,随着软件进一步吞噬世界,即使是自动驾驶的汽车,也难免沦为工具agent。
超级AI MCP,鹿死谁手?
未来AI MCP,将具有windows, 安卓这类生态底座的基础作用,并且在生态中具有更深的掌控力和主导权。哪些潜在玩家会成长为巨型MCP?
1.大模型厂商
OpenAI,Gemini,阿里,deep seek
优势:基座智能,发电厂,agent 生态活跃
短板:缺乏线下终端,缺线下闭环
2.超级APP
微信,支付宝,抖音
优势:超级流量
短板:底层是移动互联非AI,AI生态碎片化不成体系
3.车企/出行公司
特斯拉,理想,滴滴
优势:拥有最多的“物理agent”
短板:非AI公司,转型成本巨大
综合来看,条件最好的是特斯拉(或者说马斯克就是这么布局的):
AI大模型(GROK)+ 超级APP(X)+ 智能汽车(TESLA)+人形机器人(optimus)
如何学习AI大模型?
我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。
我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。
第一阶段: 从大模型系统设计入手,讲解大模型的主要方法;
第二阶段: 在通过大模型提示词工程从Prompts角度入手更好发挥模型的作用;
第三阶段: 大模型平台应用开发借助阿里云PAI平台构建电商领域虚拟试衣系统;
第四阶段: 大模型知识库应用开发以LangChain框架为例,构建物流行业咨询智能问答系统;
第五阶段: 大模型微调开发借助以大健康、新零售、新媒体领域构建适合当前领域大模型;
第六阶段: 以SD多模态大模型为主,搭建了文生图小程序案例;
第七阶段: 以大模型平台应用与开发为主,通过星火大模型,文心大模型等成熟大模型构建大模型行业应用。
👉学会后的收获:👈
• 基于大模型全栈工程实现(前端、后端、产品经理、设计、数据分析等),通过这门课可获得不同能力;
• 能够利用大模型解决相关实际项目需求: 大数据时代,越来越多的企业和机构需要处理海量数据,利用大模型技术可以更好地处理这些数据,提高数据分析和决策的准确性。因此,掌握大模型应用开发技能,可以让程序员更好地应对实际项目需求;
• 基于大模型和企业数据AI应用开发,实现大模型理论、掌握GPU算力、硬件、LangChain开发框架和项目实战技能, 学会Fine-tuning垂直训练大模型(数据准备、数据蒸馏、大模型部署)一站式掌握;
• 能够完成时下热门大模型垂直领域模型训练能力,提高程序员的编码能力: 大模型应用开发需要掌握机器学习算法、深度学习框架等技术,这些技术的掌握可以提高程序员的编码能力和分析能力,让程序员更加熟练地编写高质量的代码。
1.AI大模型学习路线图
2.100套AI大模型商业化落地方案
3.100集大模型视频教程
4.200本大模型PDF书籍
5.LLM面试题合集
6.AI产品经理资源合集
👉获取方式:
😝有需要的小伙伴,可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓