从GPU到TPU:苹果AI算力硬件的重大转向

北京时间 7 月 30 日,苹果公司发布了一篇研究论文,论文显示苹果公司使用了谷歌开发的 TPU 芯片而非英伟达的 GPU 芯片来训练其人工智能系统“苹果智能”(Apple Intelligence)中的 AI 模型 Apple Foundation Model(简称 AFM)。苹果公布其使用了 2048 片 TPUv5p 芯片来训练拥有 27.3 亿参数的设备端模型 AFM-on-device ,以及 8192 片 TPUv4 芯片来训练其为私有云计算环境量身定制的大型服务器端模型 AFM-server。

苹果放弃英伟达 GPU 转向谷歌 TPU 的战略选择,在科技界投下了一枚震撼弹,英伟达股价应声下跌超 7%,创下近三个月最大跌幅,市值蒸发 1930 亿美元。苹果此次选择依赖谷歌的云基础设施、使用谷歌 TPU 进行其 AI 模型训练,充分反映了科技巨头们在尖端 AI 训练方面开始寻求更多元化的解决方案的趋势。

在这篇文章中,我们希望梳理与阐释:

  • 苹果使用 TPU 训练其 AI 模型的技术细节,包括训练规模、训练方法、算力硬件配置情况、模型能力的基准测试结果;

  • 对 TPU 的技术解读,TPU 与 GPU 在架构和设计层面有哪些本质区别,以及面向 AI 训练场景时 TPU 有何优势;

  • 北美人工智能和半导体圈正在发生的AI算力硬件的转向,包括以英特尔、微软、AWS、特斯拉等为代表的科技巨头们所做的替代或超越英伟达 GPU 的尝试;

  • 一夜爆红的 AI 专用芯片初创公司们不断涌现并大受资本瞩目与追逐,海外投资界对AI芯片创业赛道的投资选择;

  • TPU VS. GPU,海外的 AI 算力硬件市场现在一片火热,国内如何在AI专用芯片领域实现技术与产品的突围;

  • ......

苹果与英伟达 GPU 的公开分手

英伟达一直是 AI 算力基础设施领域的领导者,在 AI 硬件市场、尤其是 AI 训练领域,其市场份额在 80% 以上,英伟达 GPU 一直是如亚马逊、微软、Meta、OpenAI 等众多科技巨头在 AI 和机器学习领域的首选算力解决方案。

然而,市场格局正在迅速变化。据悉,谷歌早在 2013 年就开始在内部研发专用于 AI 机器学习算法的芯片,直到 2016 年这款自研的名叫 TPU 的芯片才被正式公开。在 2016 年 3 月打败李世石和 2017 年 5 月打败柯杰的 AlphaGo,就是使用谷歌的 TPU 系列芯片训练而成。谷歌 TPU 作为传统 GPU 的替代,旨在比通用 GPU 更高效地处理 AI 工作负载中常见的张量运算。

如今,TPU 已经成为谷歌 AI 战略的核心。谷歌在 2023 年 12 月官宣了全新的基于 TPU 训练而成的、包含三个版本的多模态大模型 Gemini。根据谷歌的基准测试结果,其中的 Gemini Ultra 版本在许多测试中都表现出了「最先进的性能」,甚至在大部分测试中「完全击败」了 OpenAI 的 GPT-4。不过,不像英伟达,谷歌并不会以独立产品的形态单独出售自己的TPU 芯片,而是通过谷歌云平台(Google Cloud Platform,简称 GCP)向外部客户提供基于 TPU 的算力服务。这也意味着使用谷歌 TPU 的客户需要在谷歌的生态系统内开发软件,包括使用其提供的集成工具和服务来完成 AI 模型的开发和部署流程。

图片
谷歌宣布 TPU v6 将于今年年底供给 GCP 客户使用

这一次,苹果虽然在论文中没有明确表示其完全没有使用英伟达 GPU,但苹果在描述其训练 AFM 模型所用的 AI 基础设施时详细分享了使用谷歌 TPU 的很多数量、配置及性能细节,而刻意忽略了对英伟达硬件的任何提及,这一细节确实暗示了苹果有意选

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值