苹果的大模型分层策略，实在是妙

本文链接：https://blog.csdn.net/2401_85373396/article/details/140986072

苹果提出了一种按 Query 难度分发模型的策略，利用 3B 小模型、大模型和 GPT4o 来处理不同场景的任务。未来，苹果可能会为每个用户提供一个 Personal SLM，通过定期微调个性化数据，提升用户体验。这种综合了硬件、软件和云端的安全方案，为苹果在应用生态中带来了巨大优势，我们来具体聊聊。

苹果讲了一个按 Query 难度分发模型的模式：

3B 小模型：大多数场景，包括自动回复、改写、语法检查、Summary 都用端侧的小模型跑。
苹果大模型：推测在几十 B 左右，按目前的芯片能力可以跑通，估计不会是 7B 因为 7B 的模型不会比 3B 有非常大的性能提升，跑在苹果的 Private Computing Cloud 上面。
GPT-4o：现在 Private Computing Cloud 上面做安全处理，然后脱敏数据再调用 GPT-4o，计算跑在 Azure 上面，除了可以做对话，还可以做邮件等场景复杂（不涉及个人信息）的写作辅助。

在 Windows Copilot 等应用产品中，也多见大小模型混用的场景。

苹果 PCC 的价值：

PCC 是苹果的 Private 节点，这个主要是通过加密、IP 隐藏、无状态化、收紧特权权限、环境加固实现的，涉及个人隐私的数据（如个人生活照片、Message 和邮件）通过加密进去了就不会再去外部环境了。

而 GPT-4o 不会部署到 PCC 节点里面（OpenAI 不会把模型给 Apple），所以 GPT-4o 只能处理非 Personalized 处理后的数据和相关的 request。编排层是 PCC 和手机端联动模式（如果纯放在云端加密传输，延迟增加，用户体验不好，所以放在终端可能性大）。

要保证和大模型交互端到端的隐私数据安全，尽最大可能保证被攻击面的缩小，整体来看苹果这套 PCC 的方案非常复杂复杂，涉及到芯片、软件、云端、终端整套的硬件、软件的安全方案，还要考虑到最后的用户体验的优化，对于其他手机厂商来说复刻出来非常有难度。

3B 的小模型能做什么场景：

我们首先说一个结论，小模型处理问题的难点不在于长度，而在于任务难度。
所以在苹果所列的场景里，因为其场景主要是 Summarize，3B 模型已经可以胜任。
包括更复杂的邮件场景，类似 Outlook Copilot 这样一次处理几十封邮件，在现有的 3B+64K context window 也可以跑了。
在未来，特别是 GPT-5 后，小模型可以直接在 B 卡上通过蒸馏的方式完成，用更强的大模型、更高质量的数据，来帮助训练小模型，端侧的能力也会进一步提高。

未来可以想象到什么：每个人都有一个属于自己的小模型。

我们未来很可能会见到每一个用户都有一个 7B 规模的 Personal SLM，用户可以将行为与数据上传到 iCloud 上，然后经过脱敏定期 Finetune 属于自己的模型。

如果我们抽象来看这就像是一个推荐系统算法，只是推荐系统算法是一个很稀疏的模型，只有不到 10 层，大部分的用户数据都存储在第一层，通过激活不同的参数来实现个性化推荐。

那在小模型时代，可以只存储你自己的参数，Predict Your Next Token，预测用户的下一个行为。

这就像自动驾驶场景，端侧公司有着最闭环的驾驶数据（用户数据），而且可以更安全的做到脱敏。

未来的 Personal Agent 流量入口在手机不在 Super APP。

这几天我们又与十几位 Top Research 一起讨论了下 Persenoal Agent 的未来。

除了上面提到的 Personal SLM 外，大家都非常认同未来手机厂商做 Personal Agent 因为数据以及权限上的巨大优势，几乎是碾压现在 App 应用自己做的 Personal Agent 的。

这也让苹果在未来的应用生态上又拔高了一个身位。

Apple 与 OpenAI 合作了什么？

目前来看 Apple 大概率没有付钱给 OpenAI，在现有的调用模式来看，GPT-4o 应该也不在 Private Computing。

整个的合作形式，相当于 Apple 给 ChatGPT 开了一级入口，Apple 免费用 ChatGPT 的用量。

ChatGPT 得到了近似于预装的机会，未来有升级到付费版的可能。

如果苹果 11 亿 DAU 里面，有 2 亿 DAU 是 ChatGPT 付费版用户，那相当于 OpenAI 获取 500 亿流水，苹果抽成 100 亿，然后 Azure 拿到 200 亿的 GPU 租金。

ChatGPT 200mnMAU 的话，DAU 估计在 50mn 左右，用了～3 万 H 卡算力支持推理。如果 iOS 端全部用 GPT-4o，能做到 200mnDAU 的话，相当于人数 4 倍 * 单人算力 10 倍，要到百万卡算力。如果未来用到 Personal SLM 的话，数字就更难估算了。