Agent 生态爆发前夜：一文读懂《AI Agent Protocols》(含 7 大类型+未来趋势)

最新推荐文章于 2025-06-05 22:56:29 发布

大模型微调实战

最新推荐文章于 2025-06-05 22:56:29 发布

阅读量1.6k

点赞数 51

文章标签：人工智能开源运维语言模型自动化 AI ai

本文链接：https://blog.csdn.net/2401_85373898/article/details/147732950

版权

Agent爆火，催生了一大堆的Agent协议。刚好有一篇综述，进行了全面的对比分析，今天给家人们分享一下具体内容。

什么是 LLM Agent 和 Agent Protocol？

首先快速过一下基础概念。LLM Agent 不仅仅是能生成文本的大模型，它们更像是能自主决策、有记忆、会规划、还能调用外部工具（比如 API、数据库）来完成任务的智能系统。一个典型的 LLM Agent 通常包含：基础模型 (Foundation Model) 提供核心的理解和推理能力；记忆系统 (Memory Systems) 分短期和长期，保证对话连贯和知识积累；规划能力 (Planning) 把复杂任务拆解成小步骤；工具使用 (Tool-Using) 调用外部 API 或工具来弥补自身能力的不足；以及行动执行 (Action Execution) 与环境进行实际交互。

而 Agent Protocol 就是一套标准化的规则、格式和流程，用来规范 Agent 之间以及 Agent 与外部系统（如数据、工具）的沟通。相比传统的 API、GUI 或 XML 交互方式，Agent Protocol 在效率、操作范围、标准化和 AI 原生性上都有明显优势，是构建复杂、动态、可扩展 Agent 生态系统的关键。它们就像 Agent 世界的通用语言，能打破不同厂商、不同架构 Agent 之间的壁垒，实现互操作性、安全治理，甚至催生出超越单个 Agent 能力的集体智能。

Agent 互联网生态系统的分层架构

Agent Protocol ：如何分类？

面对五花八门的 Agent Protocol，这篇综述首次提出了一个清晰的二维分类框架：

按交互对象 (Object Orientation)：分为 Context-Oriented (面向上下文) 和 Inter-Agent (面向 Agent 间) 两种。
按应用场景 (Application Scenario)：分为 General-Purpose (通用) 和 Domain-Specific (特定领域) 两种。

面向上下文的协议 (Context-Oriented Protocols)

这类协议主要解决 Agent 如何从外部世界（数据、工具、服务）获取完成任务所需信息（上下文）的问题。以前主要靠针对特定模型微调函数调用能力，但缺乏标准导致接口五花八门，开发维护成本高。

通用协议代表：MCP (Model Context Protocol) 由 Anthropic 提出，目标是建立一个连接 LLM Agent 和外部资源的通用、开放标准。它采用 Client-Server 架构，将工具调用与 LLM 响应解耦，解决了不同模型和工具提供商带来的碎片化问题，提高了集成性、可扩展性和安全性（比如避免敏感信息直接暴露给云端 LLM）。
特定领域协议：agents.json 这是一个开源的、机器可读的规范，构建在 OpenAPI 之上，让网站可以声明 AI Agent 兼容的接口、认证和多步工作流，方便 Agent 理解和调用网站 API。

面向 Agent 间的协议 (Inter-Agent Protocols)

随着任务越来越复杂，单个 Agent 能力有限，多 Agent 协作成为趋势。这类协议就是为了规范 Agent 之间的沟通、发现和协作。

通用协议群雄逐鹿：
- ANP (Agent Network Protocol)：由开源社区推动，愿景是构建一个开放、安全、高效的 Agent 互联网络（“Internet of Agents”），使用 W3C DID 进行身份认证，并有元协议层让 Agent 能自主协商沟通方式。
- A2A (Agent-to-Agent)：Google 提出，面向企业级 Agent 协作，强调简单性（复用 HTTP/JSON-RPC/SSE）、企业级就绪（安全、可追溯）、异步优先和多模态支持。
- AITP (Agent Interaction & Transaction Protocol)：NEAR 提出，利用区块链技术，专注于跨信任边界的 Agent 安全通信、协商和价值交换。
- AConP (Agent Connect Protocol)：Cisco 提出，定义了一套标准的 API 来调用和配置 Agent，主要关注 Agent 的生命周期管理。
- AComP (Agent Communication Protocol)：IBM 提出，旨在标准化实用的通信功能，促进自动化和协作，目前还在设计阶段。
- Agora：牛津大学提出，试图解决 Agent 通信中的“三难困境”（多样性、效率、可移植性），让 LLM Agent 能根据场景自主协商和选择通信协议（结构化协议、LLM 生成的例程、自然语言）。
特定领域协议：针对特定场景进行优化。
- *人机交互 (Human-Agent)**：如 **PXP** 协议促进人与 Agent 之间的可理解交互；*LOKA 协议构建去中心化的身份、问责和伦理框架。
- *机器人-Agent 交互 (Robot-Agent)**：如 **CrowdES** 用于模拟真实人群行为，供机器人交互；*SPPs 用于匿名机器人间的分布式定位。
- *系统-Agent 交互 (System-Agent)**：如 **LMOS** 提供构建 Agent 互联网的基础架构；*Agent Protocol 定义了控制台与 Agent 交互的通用标准。

一个有意思的观点是，面向上下文和面向 Agent 间的协议可能正在趋同。可以把工具看作低自主性 Agent，而其他 Agent 也可以看作高自主性的“工具”。未来这两类协议可能会更加融合。

如何评价一个 Agent Protocol？

评价协议不能只看当前功能，因为它们迭代很快（比如 MCP 就快速增加了 HTTP 支持和认证）。这篇综述借鉴了互联网协议的评估经验，提出了七个关键维度：

效率 (Efficiency)：通信速度快、资源消耗少。关注延迟、吞吐量、资源利用率（包括 LLM 的 token 消耗）。
可扩展性 (Scalability)：随着 Agent/工具/网络规模增长，性能是否稳定。关注节点扩展、链路扩展、能力协商的效率。
安全性 (Security)：可信交互，包括身份认证、访问控制、数据保护。关注认证方式多样性、权限控制粒度、上下文脱敏机制。
可靠性 (Reliability)：通信稳定、准确、容错。关注丢包重传、流量和拥塞控制、持久连接。
可扩展性 (Extensibility)：能否在不破坏兼容性的前提下增加新功能。关注向后兼容性、灵活性、定制与扩展能力。
可操作性 (Operability)：协议实现、管理和集成的难易程度。关注代码量、部署配置复杂度、可观察性。
互操作性 (Interoperability)：能否在不同平台、系统、网络环境间无缝通信。关注跨系统/浏览器兼容性、跨网络/平台适应性。

论文还通过 MCP 的版本迭代和从 MCP 到 ANP/A2A 的演化案例，说明了协议在实践中是如何平衡功能、性能和安全等多个目标的。

实战

为了更直观地理解不同协议，综述里边用了一个“规划 5 天北京到纽约旅行”的案例对比了 MCP, A2A, ANP 和 Agora：

MCP：像个大总管。一个中央 Agent (MCP Travel Client) 负责调用所有外部服务（机票、酒店、天气），然后汇总信息生成计划。优点是简单可控，缺点是中心化依赖高，不易扩展。
A2A：像个部门协作。任务被分配给专门的 Agent（交通、住宿、活动），这些 Agent 可以直接相互沟通（比如机票 Agent 直接问天气 Agent 获取信息），最后由一个协调者汇总。更灵活，适合企业内复杂协作。
ANP：像跨公司合作。不同领域的 Agent（航空公司、酒店、天气网站）通过标准化的协议进行跨域交互和协商。适合独立 Agent 之间基于明确接口的协作。
Agora：像个智能翻译官。先用自然语言理解用户需求，然后生成标准化的协议分发给各个专业 Agent（机票、酒店、天气、预算）。将自然语言处理与 Agent 执行分离，适应性强。

这个案例展示了不同协议的设计哲学和适用场景：MCP 适合流程固定的任务；A2A 适合需要灵活内部协作的场景；ANP 擅长跨域标准化交互；Agora 则聚焦于从自然语言到协议的智能转换。

未来展望：Agent Protocol 路向何方？

Agent Protocol 的发展才刚刚开始，未来充满想象空间：

短期 (From Static to Evolvable)：
- 需要更完善的评估基准和测试平台。
- 隐私保护协议将越来越重要，如何在协作中保护敏感数据是个关键问题。
- 可能出现Agent Mesh Protocol，支持群组通信，提高协作效率。
- 可演化协议，让 Agent 能像学习技能一样学习、组合甚至创造协议。
中期 (From Rules to Ecosystems)：
- 将协议知识内置到 LLM 参数中，让 Agent “天生就会”遵循协议，但这会牺牲一些灵活性。
- 分层协议架构，类似网络协议栈，解耦不同层面的通信关注点，提高模块化和互操作性。
长期 (From Protocols to Intelligence Infrastructure)：
- 探索大规模 Agent 网络中的集体智能涌现和Scaling Laws。
- 可能诞生专门的Agent 数据网络 (ADN)，作为优化 Agent 间通信和协调的基础设施。