LLM → 系统级智能体（System-level Agent）的演进

原创于 2025-12-20 22:34:31 发布 · 784 阅读

8 ·

CC 4.0 BY-SA版权

文章标签：

#Agent

随笔专栏收录该内容

20 篇文章

订阅专栏

2025博客之星年度评选已开启 10w+人浏览 1.6k人参与

1. 起点：LLM 作为通用认知引擎

核心突破

通过大规模预训练获得：语言理解、生成、一定程度推理与泛化能力。
对外表现：对话、写作、总结、编码、问答、推理。

关键缺陷（为什么还不是“智能体”）

被动：只能被问才答。
无行动：不能直接调用现实世界能力（App、API、系统功能）。
无状态：缺少长期记忆与任务持续性。
不可验证：输出不等于执行结果，且缺少闭环校验。

LLM 阶段的定位很清楚：“会思考与表达”，但不“负责把事做成”。

2. 第一次补齐：工具调用与检索（LLM 连接外部能力）

这一阶段的关键不在模型更聪明，而在“让模型接上外部世界”。

两类典型扩展

RAG / 搜索

解决“知识更新与可引用”问题，让答案能基于外部文档/数据库而不是纯参数记忆。
重要变化：输出开始能“落地到证据”。

Tool Calling / Function Calling

让模型可以调用计算器、数据库查询、下单接口、发起工作流等。
重要变化：模型从“写建议”走向“能触发动作”。

但此时仍缺少“目标—计划—执行—反馈”的连续循环，所以仍不是完整智能体。

3. 协议化与平台化：MCP 等“标准接口”出现

当工具越来越多，工程复杂度迅速上升：每个团队都在重复做“上下文拼装、权限、工具封装”。

MCP/类似协议做的事情

把“模型如何获取上下文、如何发现工具、如何调用工具、返回结果怎么表达”变成标准化接口。
让工具生态变得可插拔：像硬件的 USB-C、软件的驱动层。

结果

工具接入成本下降
能力组合速度提升
为后续“系统级智能体”奠定工程基础

注意：协议解决的是规模化与互操作，不直接等于更智能。

4. 质变：Agent 出现（目标驱动 + 决策闭环）

智能体的本质不是“更会说”，而是“更会把任务做完”。

Agent 的核心结构（闭环）

目标（Goal）
计划（Plan）
执行（Act via tools）
观察（Observe results）
纠错/反思（Reflect）
迭代（Loop until done）

为什么这是质变

从单轮输出变成多轮行动
从“建议”变成“交付”
从“文本正确”转向“结果正确”

随之而来的新问题

可靠性：工具调用失败、结果不确定
成本与时延：多轮规划与调用
安全与权限：能操作系统就有风险
评估困难：需要以任务完成率衡量，而非语言指标

5. 组织化：多 Agent（分工协作与管理）

单个 Agent 很快遇到“认知负载”与“复杂任务不可控”的上限，于是进入组织化阶段。

多 Agent 的价值

分工：研究、规划、执行、审计、对抗评测等角色拆分
并行：多路探索方案，再汇总决策
互检：降低幻觉与错误决策概率
可治理：通过“管理者/审计者”实现更强约束

此时 AI 系统开始像一个团队：有角色、有流程、有监督。

6. 从“应用内智能体”到“系统级智能体”的关键跃迁

真正走到 AI Phone / 系统级智能体，不是再加一个 Agent，而是把智能体“上移到操作系统层”，同时补齐几项底座能力。

6.1 入口迁移：从 App 内到 OS 层

过去：你打开 App，App 里有 AI
现在：你对系统说需求，系统决定调用哪些 App/服务

入口权的迁移意味着：App 从“用户界面中心”转为“能力提供方”。

6.2 权限与执行：从“调用 API”到“控制系统”

系统级智能体需要：

跨 App 的执行权限（读写日程、通讯录、文件、通知、支付等）
统一身份与授权（最小权限、可撤销、可审计）
可靠执行机制（失败重试、事务、幂等、回滚）

6.3 记忆与个性化：从上下文到长期用户模型

系统级智能体要“像你的人”而不是“像一个客服”，因此需要：

长期偏好记忆
个人工作流习惯
人际关系与优先级理解
设备与场景感知（位置、时间、网络、会议状态等）

6.4 可靠性工程：从“能用”到“可依赖”

系统级意味着高风险与高频使用，必须具备：

可观测性（日志、trace、解释链路）
评估与回归（任务成功率、错误类型、对用户影响）
安全护栏（敏感操作二次确认、反欺诈、越权拦截）
多模型路由（快模型处理日常、强模型处理复杂）

6.5 生态：从“App Store”到“能力市场”

当 AI 成为入口，未来更像：

Tool / Capability Registry（能力注册表）
Agent Workflow Marketplace（工作流市场）
Reputation/Trust（调用可靠性与信誉评分）

7. 总结：一条清晰的能力补齐路线

你可以用一句话把全程串起来：

LLM 提供“认知”，工具与协议提供“连接”，Agent 提供“闭环”，多 Agent 提供“组织”，系统级智能体提供“入口 + 权限 + 记忆 + 治理”。

对应能力演进：

会说（LLM）
能查、能算、能调用（RAG/Tool）
能持续完成任务（Agent Loop）
能分工协作提升可靠性（Multi-Agent）
成为系统入口并可控地操纵真实世界（System-level Agent）