北京时间 7 月 30 日,苹果公司发布了一篇研究论文,论文显示苹果公司使用了谷歌开发的 TPU 芯片而非英伟达的 GPU 芯片来训练其人工智能系统“苹果智能”(Apple Intelligence)中的 AI 模型 Apple Foundation Model(简称 AFM)。苹果公布其使用了 2048 片 TPUv5p 芯片来训练拥有 27.3 亿参数的设备端模型 AFM-on-device ,以及 8192 片 TPUv4 芯片来训练其为私有云计算环境量身定制的大型服务器端模型 AFM-server。
苹果放弃英伟达 GPU 转向谷歌 TPU 的战略选择,在科技界投下了一枚震撼弹,英伟达股价应声下跌超 7%,创下近三个月最大跌幅,市值蒸发 1930 亿美元。苹果此次选择依赖谷歌的云基础设施、使用谷歌 TPU 进行其 AI 模型训练,充分反映了科技巨头们在尖端 AI 训练方面开始寻求更多元化的解决方案的趋势。
在这篇文章中,我们希望梳理与阐释:
-
苹果使用 TPU 训练其 AI 模型的技术细节,包括训练规模、训练方法、算力硬件配置情况、模型能力的基准测试结果;
-
对 TPU 的技术解读,TPU 与 GPU 在架构和设计层面有哪些本质区别,以及面向 AI 训练场景时 TPU 有何优势;
-
北美人工智能和半导体圈正在发生的AI算力硬件的转向,包括以英特尔、微软、AWS、特斯拉等为代表的科技巨头们所做的替代或超越英伟达 GPU 的尝试;
-
一夜爆红的 AI 专用芯片初创公司们不断涌现并大受资本瞩目与追逐,海外投资界对AI芯片创业赛道的投资选择;
-
TPU VS. GPU,海外的 AI 算力硬件市场现在一片火热,国内如何在AI专用芯片领域实现技术与产品的突围;
-
......
苹果与英伟达 GPU 的公开分手
英伟达一直是 AI 算力基础设施领域的领导者,在 AI 硬件市场、尤其是 AI 训练领域,其市场份额在 80% 以上,英伟达 GPU 一直是如亚马逊、微软、Meta、OpenAI 等众多科技巨头在 AI 和机器学习领域的首选算力解决方案。
然而,市场格局正在迅速变化。据悉,谷歌早在 2013 年就开始在内部研发专用于 AI 机器学习算法的芯片,直到 2016 年这款自研的名叫 TPU 的芯片才被正式公开。在 2016 年 3 月打败李世石和 2017 年 5 月打败柯杰的 AlphaGo,就是使用谷歌的 TPU 系列芯片训练而成。谷歌 TPU 作为传统 GPU 的替代,旨在比通用 GPU 更高效地处理 AI 工作负载中常见的张量运算。
如今,TPU 已经成为谷歌 AI 战略的核心。谷歌在 2023 年 12 月官宣了全新的基于 TPU 训练而成的、包含三个版本的多模态大模型 Gemini。根据谷歌的基准测试结果,其中的 Gemini Ultra 版本在许多测试中都表现出了「最先进的性能」,甚至在大部分测试中「完全击败」了 OpenAI 的 GPT-4。不过,不像英伟达,谷歌并不会以独立产品的形态单独出售自己的TPU 芯片,而是通过谷歌云平台(Google Cloud Platform,简称 GCP)向外部客户提供基于 TPU 的算力服务。这也意味着使用谷歌 TPU 的客户需要在谷歌的生态系统内开发软件,包括使用其提供的集成工具和服务来完成 AI 模型的开发和部署流程。

这一次,苹果虽然在论文中没有明确表示其完全没有使用英伟达 GPU,但苹果在描述其训练 AFM 模型所用的 AI 基础设施时详细分享了使用谷歌 TPU 的很多数量、配置及性能细节,而刻意忽略了对英伟达硬件的任何提及,这一细节确实暗示了苹果有意选