1. 起点:LLM 作为通用认知引擎
核心突破
- 通过大规模预训练获得:语言理解、生成、一定程度推理与泛化能力。
- 对外表现:对话、写作、总结、编码、问答、推理。
关键缺陷(为什么还不是“智能体”)
- 被动:只能被问才答。
- 无行动:不能直接调用现实世界能力(App、API、系统功能)。
- 无状态:缺少长期记忆与任务持续性。
- 不可验证:输出不等于执行结果,且缺少闭环校验。
LLM 阶段的定位很清楚:“会思考与表达”,但不“负责把事做成”。
2. 第一次补齐:工具调用与检索(LLM 连接外部能力)
这一阶段的关键不在模型更聪明,而在“让模型接上外部世界”。
两类典型扩展
- RAG / 搜索
- 解决“知识更新与可引用”问题,让答案能基于外部文档/数据库而不是纯参数记忆。
- 重要变化:输出开始能“落地到证据”。
- Tool Calling / Function Calling
- 让模型可以调用计算器、数据库查询、下单接口、发起工作流等。
- 重要变化:模型从“写建议”走向“能触发动作”。
但此时仍缺少“目标—计划—执行—反馈”的连续循环,所以仍不是完整智能体。
3. 协议化与平台化:MCP 等“标准接口”出现
当工具越来越多,工程复杂度迅速上升:每个团队都在重复做“上下文拼装、权限、工具封装”。
MCP/类似协议做的事情
- 把“模型如何获取上下文、如何发现工具、如何调用工具、返回结果怎么表达”变成标准化接口。
- 让工具生态变得可插拔:像硬件的 USB-C、软件的驱动层。
结果
- 工具接入成本下降
- 能力组合速度提升
- 为后续“系统级智能体”奠定工程基础
注意:协议解决的是规模化与互操作,不直接等于更智能。
4. 质变:Agent 出现(目标驱动 + 决策闭环)
智能体的本质不是“更会说”,而是“更会把任务做完”。
Agent 的核心结构(闭环)
- 目标(Goal)
- 计划(Plan)
- 执行(Act via tools)
- 观察(Observe results)
- 纠错/反思(Reflect)
- 迭代(Loop until done)
为什么这是质变
- 从单轮输出变成多轮行动
- 从“建议”变成“交付”
- 从“文本正确”转向“结果正确”
随之而来的新问题
- 可靠性:工具调用失败、结果不确定
- 成本与时延:多轮规划与调用
- 安全与权限:能操作系统就有风险
- 评估困难:需要以任务完成率衡量,而非语言指标
5. 组织化:多 Agent(分工协作与管理)
单个 Agent 很快遇到“认知负载”与“复杂任务不可控”的上限,于是进入组织化阶段。
多 Agent 的价值
- 分工:研究、规划、执行、审计、对抗评测等角色拆分
- 并行:多路探索方案,再汇总决策
- 互检:降低幻觉与错误决策概率
- 可治理:通过“管理者/审计者”实现更强约束
此时 AI 系统开始像一个团队:有角色、有流程、有监督。
6. 从“应用内智能体”到“系统级智能体”的关键跃迁
真正走到 AI Phone / 系统级智能体,不是再加一个 Agent,而是把智能体“上移到操作系统层”,同时补齐几项底座能力。
6.1 入口迁移:从 App 内到 OS 层
- 过去:你打开 App,App 里有 AI
- 现在:你对系统说需求,系统决定调用哪些 App/服务
入口权的迁移意味着:App 从“用户界面中心”转为“能力提供方”。
6.2 权限与执行:从“调用 API”到“控制系统”
系统级智能体需要:
- 跨 App 的执行权限(读写日程、通讯录、文件、通知、支付等)
- 统一身份与授权(最小权限、可撤销、可审计)
- 可靠执行机制(失败重试、事务、幂等、回滚)
6.3 记忆与个性化:从上下文到长期用户模型
系统级智能体要“像你的人”而不是“像一个客服”,因此需要:
- 长期偏好记忆
- 个人工作流习惯
- 人际关系与优先级理解
- 设备与场景感知(位置、时间、网络、会议状态等)
6.4 可靠性工程:从“能用”到“可依赖”
系统级意味着高风险与高频使用,必须具备:
- 可观测性(日志、trace、解释链路)
- 评估与回归(任务成功率、错误类型、对用户影响)
- 安全护栏(敏感操作二次确认、反欺诈、越权拦截)
- 多模型路由(快模型处理日常、强模型处理复杂)
6.5 生态:从“App Store”到“能力市场”
当 AI 成为入口,未来更像:
- Tool / Capability Registry(能力注册表)
- Agent Workflow Marketplace(工作流市场)
- Reputation/Trust(调用可靠性与信誉评分)
7. 总结:一条清晰的能力补齐路线
你可以用一句话把全程串起来:
LLM 提供“认知”,工具与协议提供“连接”,Agent 提供“闭环”,多 Agent 提供“组织”,系统级智能体提供“入口 + 权限 + 记忆 + 治理”。
对应能力演进:
- 会说(LLM)
- 能查、能算、能调用(RAG/Tool)
- 能持续完成任务(Agent Loop)
- 能分工协作提升可靠性(Multi-Agent)
- 成为系统入口并可控地操纵真实世界(System-level Agent)
754

被折叠的 条评论
为什么被折叠?



