未来的AI agent不仅要会干活,还要会找人、懂沟通、能协同。
当我们还在讨论 AI Agent 如何调用 API、执行任务时,一个更具颠覆性的概念正在悄然成形——它不再只是让一个智能体“动起来”,而是让数十亿个 Agent 彼此连接、组队协作、自主通信,这个概念叫Internet of Agents(IoA)。
当信息互联网(Web1.0)完成了“连接内容”,社交互联网(Web2.0)完成了“连接人”,区块链互联网(Web3.0)完成了“连接资产”,IoA 正在尝试连接“任务”与“智能”本身。
IoA 正在悄悄改变我们的认知边界。
Typical Multi-Agent Frameworks(典型的Multi-Agent框架)
近年来,大语言模型(LLMs)的进步推动了多种智能体框架的发展,这些框架具备自主或半自主完成任务的能力,依赖于先进的推理、规划和工具集成能力。
-
AutoGPT 实现了目标驱动的自主 Agent,通过递归自我提示不断细化动作;
-
AutoGen 引入了会话型智能体网络,多个由 LLM 驱动的智能体(如助手、用户代理)动态交互,支持人类在环与全自动流程;
-
LangChain 提供了模块化框架,用于将 LLM 调用与外部工具(如 API、数据库)及记忆系统连接,为构建灵活的 Agent 流水线提供了支持;
-
MetaGPT 模拟了角色分工的软件开发团队(如产品经理、工程师),通过结构化流程强化智能体协作;
-
BabyAGI:专注于任务驱动的自主迭代;
-
CAMEL:探索具备交流能力的“角色扮演型”智能体社会。
以下为主流开源Multi-Agent框架的比较:
Framework | Key Features 关键特性 | Strengths 优势 | Weaknesses 劣势 | Primary Use Case 主要应用场景 |
---|---|---|---|---|
MetaGPT | Role-based agents, structured workflows, multi-agent collaboration基于角色的智能体、结构化流程、多智能体协作 | High efficiency in complex tasks处理复杂任务效率高 | Require predefined roles, less flexible 需预定义角色,灵活性差 | Automated software development 自动化软件开发 |
LangChain | Modular LLM chaining, memory, tool integration模块化的大模型调用链、记忆系统与工具集成 | Highly customizable, supports diverse tools 高度可定制,支持多样化工具 | Steeper learning curve, manual tuning needed 学习曲线陡峭,需手动调优 | Custom agent pipelines, RAG systems 定制智能体流程,RAG 系统 |
AutoGPT | Recursive self-prompting, goal-driven autonomy 递归式自我提示,目标驱动自治 | Fully autonomous task execution 可实现完全自主的任务执行 | Prone to loops, high compute cost 易陷入循环,计算资源开销大 | General task automation 通用任务自动化 |
AutoGen | Conversational MAS, human-in-the-loop support对话式多智能体系统,支持人类闭环参与 | Flexible collaboration, dynamic interactions 灵活协作,动态交互 | Complex setup for optimal performance 配置复杂,难以达到最佳性能 | Multi-agent dialogue, AI teamwork 多智能体对话,AI 团队协作 |
BabyAGI | Task-driven autonomous iteration, simple architecture 任务驱动型自主迭代,架构简单 | Lightweight, easy to deploy 轻量,易部署 | Limited reasoning depth推理能力有限 | Small-scale automation小规模自动化 |
CAMEL | Role-playing agent societies, communicative agents 角色扮演式智能体社会,具沟通能力的智能体 | Simulates human-like interactions模拟类人交互 | Less optimized for tool use工具使用效率不高 | Social AI, research simulations 社交型 AI,研究模拟 |
Roadmap of IoA(技术发展路线图)
当前具有代表性的工业实践包括:计算机使用智能体(CUA)、AI 智能手机、Anthropic 的模型上下文协议(MCP)和 Google 的智能体间通信协议(A2A):
1/ Computer-Use Agents(CUAs)计算机使用智能体:通过模拟人类使用计算机的方式来操作现有互联网服务的智能体系统。因为当前大多数互联网服务(网站、应用)都是为人设计的,并非为智能体或机器提供接口,所以 CUAs 不得不采取“曲线救国”的方式。
例如 OpenAI 的 Operator,通过模拟人类对图形界面的操作(如点击、打字)来驱动浏览器和手机界面,但这类方法效率低,它需要进行大量屏幕抓取(screen-scraping),即不断读取和解析屏幕上的图像或文字信息,这会带来很高的计算开销,且容易出错(比如网页结构改动后就失效),从而限制了AI agents的效率和稳定性。
总而言之,Agent 提供标准化 API 的情况下是一种无奈但可行的手段,但从长远来看,它们效率低、维护成本高,不适合构建下一代智能体互联网(IoA)。
2/ AI 智能手机:传统的 App 是为人设计的,用户通过点按钮、切换页面来完成操作。而如果 AI 想帮助你操作这些 App,通常只能通过模拟“人”的点击滑动(GUI 模拟),也就是上文说的 CUA 模式。
听起来很聪明,但问题也不少:页面一改就失效,维护成本高;识别图形界面需要大量算力,效率低;本质上是“伪自动化”,不够原生。于是,一种更优雅的解决方案诞生了——AI Smartphones。比如,苹果最新推出的 Apple Intelligence,就在悄悄推动一个关键变革,它不再让 AI 去“点击屏幕”,而是直接把 App 的 API 接口暴露给AI Agent调用。
简单来说,就是让 Agent 像程序员一样,直接调用 App 的内部功能和数据,不走 GUI,而是走后门,原生接入。这种方式不但更高效、稳定,也更符合Agent的“思维方式”——它们天生就擅长处理结构化数据、函数调用,而不是看页面点按钮。
那么问题来了,不需要人类操作了,人类的价值在哪?
在传统 App 中,人是主要的操作者:点一点、选一选、填表、提交。
而在 AI Smartphones + IoA 构建的新体系中:这些“机械操作”变成了智能体自动完成的底层函数调用;人不再需要像以前一样反复点开 App、在多个页面跳转;人类的角色不再是“执行者”,而是“指令发布者”或“目标设定者”。
比如:
过去:你手动打开外卖 App → 搜索餐厅 → 下单 → 支付
现在:你对 AI 手机说一句 → “我想吃麻辣香锅,便宜点的,今晚 6 点前送到。” → 剩下的步骤由Agents完成,包括调用多个 App、比价、下单、付款。
人类的价值向“更上游”迁移,即随着 Agent 越来越聪明,人类的作用也在“上移”:
AI Agent 和 IoA 帮我们节省时间、提高效率,而人类的独特智慧——创造力、判断力、共情力,将在更重要的位置上发挥作用。
3/ MCP 协议:将大型模型置于生态核心,将整个互联网视作其上下文知识库与工具箱。标准化 API、动态插件支持与持久上下文管理,使单一模型可编排多类服务。
4/ A2A 协议:旨在构建去中心化的AI Agent 网络,使AI Agent能自主发现、协商与协作。
Anthropic 提出的 MCP(Model Context Protocol) 和 Google 提出的 A2A(Agent-to-Agent)协议两者都致力于实现智能体之间的协同与调用,但方式不同。论文中用了两张图来做了形象的对比:
Anthropic 的 MCP(Model Context Protocol):集中式服务结构,围绕“模型上下文”组织任务调用。
4步工作流程:
-
MCP Client 发起请求(如 AI 应用请求调用某个能力)
-
MCP Server 查找对应的工具/资源,如工具插件、提示词、数据资源等
-
执行外部操作(调用 API、访问数据库、浏览网页、查本地文件)
-
返回数据,组成最终的上下文或回复返回给模型
特点:
-
“模型上下文为中心”,本质上是为 LLM 动态扩展能力
-
类似一个 智能体“插件市场 + 中转服务器”
-
客户端不用关心对接哪些工具、谁在执行,只管发请求拿结果
例如:用户点个外卖,平台自动分配骑手和商家,背后谁在处理你其实并不关心。
Google 的 A2A(Agent to Agent):Agents彼此独立,基于“名片(Agent Card)”实现点对点协作。
7步工作流程:
-
Client Agent 查找远程 Agent(通过 Agent Card 广播/发现机制)
-
获得远程 Agent 的信息(功能描述、接口、地址)
-
Client 生成任务 ID
-
发起任务请求
-
远程 Agent 处理任务
-
过程中可互动(如进度更新、补充提问)
-
返回结果
特点:
-
“Agents为中心”,强调个体Agent之间的自治合作
-
有点像“Agent 朋友圈”或“数字自由职业者市场”
-
每个 Agent 通过 Agent Card 公开自己的技能、接口、通信协议
例如:一个市场分析 Agent 想找会生成投资报告的 Agent,于是它搜索了一圈 Agent Card,锁定目标,直接发任务请求,对方完成后把结果返回。
这更像自由职业者之间的合作:你发个需求帖子,别人投简历,中间也可以聊天、补充说明,合作完成。
最后简单总结一下:
Agent 的“发现能力”变得和“执行能力”一样重要
在传统互联网中,如果你要调用一个服务,通常需要知道它的接口(API)、权限、文档地址……而在 IoA 世界里,这一切都被浓缩进一张“智能体名片”——Agent Card。
未来的AI agent不仅要会干活,还要会找人、懂沟通、能协同。
Agent Card,不仅是名片,更是它们之间建立信任、协作的“社交协议”。
一张 Agent Card 通常包含:
-
Name:智能体的名称(如“市场分析师”)
-
Description:它能做什么(如“生成投资建议”)
-
Skills:具体技能(如“预测市场走势”)
-
URL:它的网络地址(比如一个 JSON 格式的服务入口)
这就像是每个 Agent 都发布了一个公开履历表,供其他 Agent 检索、发现、调用。
过去系统之间的协作靠的是“接口对接”,人类程序员要提前设计好流程、数据格式、权限控制,非常复杂且耗时。
而现在,Agent 可以自己搜卡片、挑选最适合的合作伙伴,然后自动建立连接、发出任务,甚至完成一整套交互过程,不需要人类中间协调。
设想一下未来的场景:
-
AI Agent(A):需要一份 ESG 市场趋势预测
-
搜索 Agent Card…
-
找到 AI Agent(B)(擅长 ESG 分析)
-
发出请求,AI Agent(B) 处理完返回报告
在这个过程中,人类甚至不需要出现,真正进入机器自动协作的新时代。
IoA 的发展应实现的三大目标
1/ seamless interoperability to eliminate data silos, 无缝互操作性,消除数据孤岛
不同智能体、应用、系统之间可以自由流通数据、调用功能、协同工作,而不会因为平台壁垒、数据格式不同、API 不兼容而“卡壳”。
比如,未来一个聊天机器人想订一张火车票,它得调用 12306、调出付款app、打开行程管理 App……如果这些系统彼此不通,用户就得手动来回操作。
而 IoA 要实现的,是让不同平台、不同厂商的 Agent 也能像 Lego 一样拼起来 —— 你说出需求,agents之间自动配合完成任务。
2/ agent-native interfaces for direct efficient inter-agent interactions, 面向智能体的原生接口,实现高效的agents间通信
如前文提到IoA 要构建的是原生为 Agent 设计的接口,比如:用结构化数据交换而非屏幕截图;用语义协议和事件流沟通,而非模拟鼠标点击。
例如,未来一个“旅行助手 Agent”可以直接向“12306 Agent”发出标准请求:查询明天下午从上海到杭州的高铁,帮我预订价格最低的车次,完全不需要“点网页”。
3/ protocol-driven selforganizing cooperation among agents,协议驱动的自组织合作网络
未来不是每个任务都要人来安排、指挥,Agents 会自动识别需求、匹配协作伙伴、分工合作。这就像构建一个“Agent 社会”,其中的行为不是靠人管,而是靠协议和规则自动运行。
例如,未来你要装修一间办公室,发出指令后——系统中的设计师 Agent、材料 Agent、预算 Agent 会自动协商:谁负责设计?谁负责采购?谁协调进度?如何保障时间、预算、交付?谁来监督执行?这一切由一套类似“社会契约”的协作协议驱动,不依赖人工协调。
Emerging IoA Application Scenarios(新兴的 IoA 应用场景)
IoA 架构在多个领域具有变革性潜力,论文中提出了三个典型应用场景,智慧城市、智能家居、智慧工厂。
场景一:智能家居中的 IoA 子网内智能体通信
在智能家居环境下,专属的 IoA 子网连接起不同家庭agents(如扫地机器人、数字助理、机器人宠物、智能家电),它们可自动发现彼此并建立任务导向的 P2P 网络。
新接入的扫地机器人将在接入家中网络时获取唯一数字身份,识别附近agents,动态组队执行环境监测、餐食准备、能源管理等任务。它们能在 Wi-Fi 和蜂窝网络之间自由切换,并使用 IoA 服务实现多模态数据转发和域内资源共享,从而打造高度自适应的“自编排”居住环境。
场景二:智能工厂中 IoA 子网与外部agents协同
在智能工厂内,IoA 子网连接现场制造agents(如机械臂、AGV 小车、数字孪生控制器)与外部生态agents(如供应商助理、物流无人机、云端分析智能体)。
例如:线上生产调度智能体可通过供应商助手请求备件,指派 AGV 与无人机协商取货时间,并通过二维码或 D2D 方式验证身份。整个过程中,网络支持数字身份认证与基于传感的路径规划服务,实现物料准时到达与对供应链动态的快速响应。
场景三:智慧城市中的跨域agents组网
在城市级别,IoA 支持来自不同组织的异构agents间动态协作,如市政交通控制器、公共安全无人机、自动驾驶车辆、应急响应机器人等。
它们可在需求发生时,通过身份互认证建立任务导向型临时协作团队,进行实时巡检、火灾或交通事故检测,并协调多模态响应方案。任务完成后,相关资源自动释放,从而优化网络负载,确保智慧城市服务具备可扩展性与韧性。
大模型&AI产品经理如何学习
求大家的点赞和收藏,我花2万买的大模型学习资料免费共享给你们,来看看有哪些东西。
1.学习路线图
第一阶段: 从大模型系统设计入手,讲解大模型的主要方法;
第二阶段: 在通过大模型提示词工程从Prompts角度入手更好发挥模型的作用;
第三阶段: 大模型平台应用开发借助阿里云PAI平台构建电商领域虚拟试衣系统;
第四阶段: 大模型知识库应用开发以LangChain框架为例,构建物流行业咨询智能问答系统;
第五阶段: 大模型微调开发借助以大健康、新零售、新媒体领域构建适合当前领域大模型;
第六阶段: 以SD多模态大模型为主,搭建了文生图小程序案例;
第七阶段: 以大模型平台应用与开发为主,通过星火大模型,文心大模型等成熟大模型构建大模型行业应用。
2.视频教程
网上虽然也有很多的学习资源,但基本上都残缺不全的,这是我自己整理的大模型视频教程,上面路线图的每一个知识点,我都有配套的视频讲解。
(都打包成一块的了,不能一一展开,总共300多集)
因篇幅有限,仅展示部分资料,需要点击下方图片前往获取
3.技术文档和电子书
这里主要整理了大模型相关PDF书籍、行业报告、文档,有几百本,都是目前行业最新的。
4.LLM面试题和面经合集
这里主要整理了行业目前最新的大模型面试题和各种大厂offer面经合集。
👉学会后的收获:👈
• 基于大模型全栈工程实现(前端、后端、产品经理、设计、数据分析等),通过这门课可获得不同能力;
• 能够利用大模型解决相关实际项目需求: 大数据时代,越来越多的企业和机构需要处理海量数据,利用大模型技术可以更好地处理这些数据,提高数据分析和决策的准确性。因此,掌握大模型应用开发技能,可以让程序员更好地应对实际项目需求;
• 基于大模型和企业数据AI应用开发,实现大模型理论、掌握GPU算力、硬件、LangChain开发框架和项目实战技能, 学会Fine-tuning垂直训练大模型(数据准备、数据蒸馏、大模型部署)一站式掌握;
• 能够完成时下热门大模型垂直领域模型训练能力,提高程序员的编码能力: 大模型应用开发需要掌握机器学习算法、深度学习框架等技术,这些技术的掌握可以提高程序员的编码能力和分析能力,让程序员更加熟练地编写高质量的代码。
1.AI大模型学习路线图
2.100套AI大模型商业化落地方案
3.100集大模型视频教程
4.200本大模型PDF书籍
5.LLM面试题合集
6.AI产品经理资源合集***
👉获取方式:
😝有需要的小伙伴,可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓