一、A2A协议
先来看Google发布的 A2A协议。
A2A(Agent-to-Agent)协议,顾名思义,就是让AI代理彼此直接对话、协同工作的协议。
这次Google得到了包括Salesforce、SAP、ServiceNow、MongoDB等在内的50多家科技公司的支持参与。
A2A协议的设计初衷很简单:
让不同来源、不同厂商的Agent能够互相理解、协作。就像WTO旨在消减各国间的关税壁垒一样。
一旦采用A2A,不同供应商和框架的Agent就像一个个的小国家,加入了一个自由贸易区,能够用共同语言交流、无缝协作,联手完成单个Agent难以独立完成的复杂工作流程。
至于A2A是如何运作的,我尽量用现实类比来通俗易懂的解释下:
1. Agent = 国家外交官
每个Agent其实就像一个国家大使馆的外交官。他的名牌上写着自己能干啥、隶属于哪家企业,联络方式如何等。A2A要做的,就是制定一个统一的外交礼仪和沟通流程。
过去,A国外交官只会说法语,B国外交官只用西里尔字母写文件,C国外交官要求面谈时必须使用古老的云纹金箔信件。。。而A2A的出现,就是让大家在同一个会议室开会时,都能说一套约定好的通用语言,用相同格式提交文件,让商议好的结果可以被各方理解并执行。
2. Agent Card(代理卡) = 外交国书 / 大使名片
在A2A规范中,每个Agent都要公开一份“Agent Card”,相当于其外交官的身份名片。
包含以下内容:Agent名称、版本、能力描述、支持什么“语言或格式”等等。
现实中,外交官的身份名片让对方知道他是谁,代表哪个国家,有哪些职权。同理,在A2A里,Agent Card列举了“我(这个Agent)能执行哪些技能”、“我的认证方式是什么”、“输入输出格式有哪些”等等。
这样,其他外交官想跟你合作就能很快找到你、理解你的能力,省去了大量沟通障碍。
3. Task(任务)= 双边或多边外交项目
A2A中最核心的概念之一是Task。
当一个Agent想委托另一个Agent去完成什么事情,就像对外发布一份“合作项目意向书”。对方同意接单后,双方会记录一个Task ID,追踪项目进度、交换资料、直到该Task完成为止。
现实外交中,某国家就可能向某兔提议:“我们想合作修一条跨境高铁,麻烦你们派工程队来。”
这就对应A2A的Task:由发起方提出需求(TaskSend),远程Agent表示接受(Task状态变更),然后双方在整个项目过程中随时更新任务进度
里面还有个Artifacts(成果物),就相当于这个项目最后落地的“合同文本、建设成果”。在AI里可能是生成的一份报告、一张图片或任意形式的输出。而在A2A语言里,用 Artifact 表示最终生成的成果。
Message(消息),则是项目前期或中期的各种来回沟通。它可能包含对任务细节的补充说明、要对方再确认某些条件等。这与现实外交中的电报、照会、使节往来是一模一样的。
4. Push Notifications(推送通知)= 外交使馆快报
在A2A里,如果一个Task是长期项目,远程Agent需要花很久时间才能完成,比如DeepResearch动辄十几分钟,某些复杂的Agent动辄一小时,它就可以通过推送通知机制向发起方更新进度。
就像在外交中,如果一个跨国基建项目周期很长,甲国会定期给乙国发通报:“进度到哪儿了?有什么问题需要协调?”
这样能大幅提升异步协作的能力。过去很多AI系统比较原始,只能用同步的“请求-响应”模式,就像放一个人在那24小时监控,一旦响应超时就中断。
A2A允许设置回调接口、服务器端事件(SSE)等方式,把漫长的任务分段汇报,让沟通保持流畅。
5. 身份认证与安全= 外交特权与协议
A2A采用企业级的认证策略,要求通信双方先验证对方的身份凭证。例如在现实外交中,不是谁都能随意闯进某国大使馆,必须持有相应的外交护照、获得许可。
这就是为了防范“冒名顶替”或“恶意窃听”。
在A2A里,“认证头信息”“token”“签名”等一系列安全手段,就相当于外交通行证或盖了公章的外事批准文书,确保你跟我谈判时是真的代表“你所在的国家”,而不是一个假冒的第三方。
这大概,就是A2A的机制,其实你看,跟国与国的外交,或者跟企业与企业之间的协同,没有任何本质的区别。
二、 MCP协议
再来看MCP协议,全称Model Context Protocol。
这就是Claude的母公司Anthropic在2024年11月推出并开源的一套标准。
A2A解决了AI外交官之间的交流流程问题,但是还有一个棘手的现实,再能言善辩的外交官或者企业商务,要是没有任何可靠的信息来源,对国际局势和资源配置就两眼一抹黑,根本就没法干活。
更何况,在现代社会,外交官往往需要调用种种外部工具,比如签证系统、国际结算系统、情报数据库等等,才能完成任务。
同理,一个Agent若想承担真正的复杂职责,也需要能连上各种数据库、文档系统、企业应用,甚至是硬件设备。
这就像给外交官建立完备的情报局,并授权他们使用某些工具处理事物。
过去,Agent要接入外部资源,常常得各自开发专用插件,与不同工具做深度整合,劳心劳力。
但是,我们现在有MCP了。
MCP致力于标准化大型语言模型(LLM)与外部数据源、工具之间的交互方式。Anthropic的官方比喻很形象:MCP就像AI应用程序的USB-C端口。
USB-C是如今设备通用的接口,不管充电、传数据都是一个口搞定。
MCP的野心也是这样的,搞一个AI领域的万能接口,让各种模型和外部系统接驳都用同一个协议,而不是每次另写一套集成方案。
以后AI模型要连数据库、连搜索引擎、连第三方应用,不用每家各订各的协议,只要都支持MCP就能对上话。
它大概是客户端-服务器架构的思路:
1. MCP服务器= 整合的情报局
企业或个人可以把自己的数据库、文件系统、日历、甚至第三方服务封装成一个个“MCP Server”,这些Server符合MCP协议,向外暴露统一格式的访问端点,任何Agent只要符合MCP客户端标准,就能发送请求、检索信息或执行操作。
比如高德就把自己的一些API,封装成了MCP,只要你有高德的API Key,你就可以在Agent上调用高德。
2. MCP客户端 = 外交官实际使用的终端设备
就像一个Agent外交官带着专用的终端设备,可以输入各种指令:“帮我查一下财务系统里库存数据”、“帮我向某个API提交请求”,“把某份PDF拿来我看看”。
过去,如果没有MCP,你得针对各种系统写不同的访问代码,整合起来极其麻烦;但是用了MCP后,只要客户端支持协议,就能轻松切换到不同的MCP服务器。
调用不同的信息,随时获取情报、做业务流程。
这大概,就是MCP的机制。
三、 A2A和MCP的不同
方面 | A2A | MCP |
---|---|---|
核心关注点 | 代理与代理的协作 | 模型与工具的连接 |
交互模式 | 对话式、长时间运行的任务 | 函数调用、结构化输入输出 |
应用场景 | 多代理协作、复杂任务分解、服务发现 | 工具集成、API 调用、资源访问 |
抽象层次 | 高级别(意图和能力) | 低级别(具体功能) |
标准化程度 | 正在早期发展阶段 | 逐渐标准化中 |
优势 | 支持动态发现和即兴协作;适合处理开放式、复杂的任务;更接近人类团队协作的自然模式;可扩展性强,可以轻松添加新代理 | 结构明确,执行可预测;与现有 API 框架集成简单;降低了 AI 与工具连接的复杂性;性能开销相对较小 |
挑战 | 状态一致性管理复杂;安全性和访问控制挑战;推理开销较大;部分故障处理机制尚不成熟 | 灵活性有限,需要明确定义每个工具;不适合处理高度动态或未知的任务;难以表达复杂的协作需求 |
简单来说,A2A 就像是一个 “会议室”,让不同的 AI 智能体像人类一样坐在一起协作,共同完成复杂任务。而 MCP 则像是一个 “工具车间”,让 AI 模型知道如何使用各种工具,但不涉及智能体之间如何合作。在实际应用中,它们往往需要结合使用,以构建更完整、强大的 AI 系统。
如何学习大模型 AI ?
由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。
但是具体到个人,只能说是:
“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。
这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。
我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。
我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。
这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费
】
第一阶段(10天):初阶应用
该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。
- 大模型 AI 能干什么?
- 大模型是怎样获得「智能」的?
- 用好 AI 的核心心法
- 大模型应用业务架构
- 大模型应用技术架构
- 代码示例:向 GPT-3.5 灌入新知识
- 提示工程的意义和核心思想
- Prompt 典型构成
- 指令调优方法论
- 思维链和思维树
- Prompt 攻击和防范
- …
第二阶段(30天):高阶应用
该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。
- 为什么要做 RAG
- 搭建一个简单的 ChatPDF
- 检索的基础概念
- 什么是向量表示(Embeddings)
- 向量数据库与向量检索
- 基于向量检索的 RAG
- 搭建 RAG 系统的扩展知识
- 混合检索与 RAG-Fusion 简介
- 向量模型本地部署
- …
第三阶段(30天):模型训练
恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。
到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?
- 为什么要做 RAG
- 什么是模型
- 什么是模型训练
- 求解器 & 损失函数简介
- 小实验2:手写一个简单的神经网络并训练它
- 什么是训练/预训练/微调/轻量化微调
- Transformer结构简介
- 轻量化微调
- 实验数据集的构建
- …
第四阶段(20天):商业闭环
对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。
- 硬件选型
- 带你了解全球大模型
- 使用国产大模型服务
- 搭建 OpenAI 代理
- 热身:基于阿里云 PAI 部署 Stable Diffusion
- 在本地计算机运行大模型
- 大模型的私有化部署
- 基于 vLLM 部署大模型
- 案例:如何优雅地在阿里云私有部署开源大模型
- 部署一套开源 LLM 项目
- 内容安全
- 互联网信息服务算法备案
- …
学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。
如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。