2024年4月11日_解读AI芯片竞赛

本文分析了各大科技公司在AI芯片领域的最新动态,英特尔的Gaudi3、AMD的Versal系列和谷歌的Axion及TPUv5,展示了各公司如何通过技术升级争夺市场份额,挑战英伟达在AI芯片市场的霸主地位。
摘要由CSDN通过智能技术生成

应该说,生成式AI市场的迅猛增长

离不开对高性能计算硬件

特别是对英伟达GPU芯片的巨大需求

在这波AI浪潮的助推下

英伟达的市值在很短时间内就突破2万亿美元

仅次于苹果微软


根据数据统计公司Statista的预测

预计2024年生成式AI的市场规模

将达到666.2亿美元

到2030年市场规模有望达到2070亿美元


由于芯片对AI的重要性英伟达的统治地位

传统半导体厂商大型科技公司

都在持续加码AI芯片领域

希望能够从英伟达手中抢下一定市场份额

或者摆脱对英伟达的依赖

于是就在4月9日这一天

英特尔AMD谷歌都发布了与AI有关的芯片产品

意图从英伟达手中分一杯羹

今天我们就来盘点一下

英特尔 - Gaudi 3

先来说英特尔

在年度Intel Vision 2024会议上

英特尔推出了新的AI芯片Gaudi 3

这个Gaudi系列芯片就是为数学而生

来自于英特尔2019年以20亿美元收购的AI芯片初创公司Habana Labs

我们先来简单回顾一下它的前两代

Gaudi 1

Gaudi 12019年6月Habana Labs发布

采用台积电16纳米工艺

包括了一个通用GEMM Engine矩阵数学引擎

以及八个带有本地内存的张量处理核心TPC

GEMM引擎可以以16位精度

全连接层卷积批量GEMM处理进行数学运算

TPC是一种特殊的SIMD处理器

用来处理其他机器学习操作

共享的SRAM内存容量24MB

带宽1TB/秒

Gaudi 2

Gaudi 22022年5月发布

采用台积电7纳米工艺

通过2.5DCoWoS封装来链接四个HBM2内存堆栈

每个堆栈8GB

总共32GB内存聚合带宽1TB/秒

Gaudi 2芯片还具有10个100Gb/秒以太网RoCE端口

最多支持128个完全连接的节点

以及一个PCI-Express 4.0 x16控制器来连接主机CPU

Gaudi 2共享SRAM内存24MB增加到了48MB

TPC的数量增加了3倍

达到24个单元GEMM单元

也就是矩阵数学引擎的数量也增加了一倍

以太网端口数量增加了2.4倍

达到24个端口

从根本上提高了Gaudi集群可扩展性

Gaudi 3

而这一次发布的Gaudi 3

与NVIDIA最近发布的Blackwell架构类似

也是双芯片设置

采用了台积电5nm工艺

2个矩阵数学引擎24个张量核心

扩展到8个矩阵数学引擎64个张量核心

Gaudi 3芯片FP8精度总吞吐量

达到了1835TFLOPS

这使得Gaudi 3使用8位浮点计算产生的AI算力

Gaudi 2两倍

BFloat 16格式的算力提升则达到了四倍

每张芯片板载SRAM48MB

所以整个芯片的SRAM96MB

SRAM总带宽12.8TB/秒

Gaudi 3还包括了24个200GbpsRoCE以太网控制器

可提供纵向横向扩展连接

Gaudi 2上的100 Gbps增加了一倍

这块Intel也采用了与NVIDIA相反的做法

以太网扩展到芯片级别

而不是将NVLink扩展到机架级别

不过

Gaudi 3采用了较为过时的HBM2e

而没有选择HBM3或者HBM3e

也因此可用的最高容量堆栈为16GB

提供总共128GB的内存


当然了

会上少不了要和英伟达的芯片做对比

英特尔内部评估显示

与英伟达H100显卡相比

Gaudi 316个加速器集群

FP8精度训练Llama2-13B

性能比H1001.7 倍

推理速度H200快大约30%


此外

正如NvidiaCUDA领域主导地位

这次英特尔也意识到了生态的重要性

它表示

正在与十几家合作伙伴共同创建企业级的AI开放平台

为公司提供优化运行AI模型的系统

同时整合了多家供应商的软硬件

目前英特尔的重点是支持多模态训练和推理模型

以及RAG

也就是检索增强生成

Gaudi 3芯片预计在今年第三季度全面上市

第二季度会提供给OEM厂商

具体价格还没有透露

AMD - Versal系列芯片

其次就是AMD

同一天也更新了自己的Versal系列芯片

不过这次更新可能并不是AMD产品的重点

并没有开专门的发布会

但是也值得一提

同英特尔有些类似的是

第一代的Versal系列芯片是由赛灵思(Xilinx)2018年10月正式发布的

不过,在2020年10月

AMD宣布以约350亿美元全股票交易收购赛灵思

直到2022年2月

最终以大约498亿美元正式收购完成后

AMD才开始陆续推出相关的新产品

新推出的Versal AI Edge Series Gen 2Versal Prime Series Gen 2采用单芯片智能方案

集成了用于预处理AI推理后处理多种处理器

可以为AI驱动的嵌入式系统

提供端到端加速

初代相比

第二代Versal系列产品组合的能源效率提高了3倍

新集成的Arm CPU标量计算能力提高了10倍

具体来说

第二代Versal AI Edge系列升级了内部的CPU核心

由原来的Arm Cortex-A72升级为了专门面向汽车和工业的高性能CPU内核Cortex-78AE

支持2核8核可选

可以根据需要来进行配比平衡

并且将Arm Cortex-R5实时处理器

升级为了Cortex-R52实时处理器

最高支持10核

进一步提升了实时处理器能力

另外,还加入了Arm Mali G78AE GPU

进一步提升了图形处理方面的能力

同时升级了全新的AI引擎

AI推理性能方面

每瓦TOPS性能提升到了上一代的2倍

支持的数据类型方面

新增了对FP8FP16MX6MX9数据类型原生支持

并且还支持数字信号处理视觉以及其他推理以外的附加功能

第二代 Versal Prime系列将面向传感器处理可编程逻辑

高性能嵌入式Arm CPU相结合

能够为传统的非AI嵌入式系统提供端到端加速

标量算力可以提升到初代10倍

从而高效地执行传感器处理复杂的标量工作负载

第二代Versal系列的目的主要在于满足自动驾驶航空航天和国防工业医疗等行业的需求

预计2025年底进行量产

在此之前会提供评估样品

谷歌 - Axion

谷歌也在Google Cloud Next 2024会议

发布了名为Axion的全新处理器

这是谷歌为数据中心设计首款基于Arm架构定制CPU

虽然现在GPU是训练AI模型的主力

但是CPU在整个AI系统中也有其不可替代的作用

CPU更擅长处理序列任务复杂的控制流程

在一些场景下

比如数据预处理AI模型的部署和推理

以及处理不能高效利用GPU并行能力的任务

CPU是更合适的选择

相较于市面上最快的基于Arm的同类产品

Google这次发布的Axion

性能提升高达30%

相比基于x86的产品,性能提升了50%

能效提高了60%

而且由于建立在标准的Arm v9架构指令集

大多数应用无需重写代码

即可在Axion上运行

Axion今年晚些时候会提供给Google Cloud客户

基于Axion处理器的虚拟机

将在未来几个月内提供预览

谷歌 - TPUv5

值得一提的是

谷歌现有芯片中除了最新的Axion

在此之前已经发布了五代张量处理器

也就是TPUv5

TPU是谷歌为机器学习开发的专用集成电路

自从2015年开始在内部使用

2018年第三方开放,长期以来

一直服务于谷歌YouTubeGmailAndroid 等诸多产品

并且被用来训练谷歌Gemini大模型

有时间我会专门介绍TPU

TPU的最新版本是2023年12月发布的TPU v5p

它可以在8960个芯片集群中运行

上一代TPU性能两倍

接近于英伟达H100芯片

在周二的发布会上

谷歌也宣布开发者现在可以通过谷歌云服务来访问并使用TPU v5p

分析

可以看到

AI芯片领域的竞争正在加剧

面对英伟达在AI芯片市场的领先地位

英特尔、AMD 等传统半导体公司除了在技术上进行竞争

也在寻求合作伙伴,构建生态系统

努力提供更加完整的解决方案

谷歌以及亚马逊微软Meta等科技巨头

也出于各种考量纷纷定制自己的AI芯片

首先,这有助于它们控制成本

根据CB Insights发布的2024年生成式AI预测报告

一颗H100的制造成本大约为3320美元

但是平均售价已经达到3万美元

最高售价甚至一度达到将近10万美元

自研芯片的成功

不仅能避免芯片短缺风险、降低依赖

还可以向使用云服务的企业出售芯片

此外,相比通用GPU

定制化的AI芯片不仅能够提供更加专业和高效的服务

还能够根据特定需求进行快速迭代和优化

理论上

如果能够确保产量降低成本

谷歌等公司应该能够提供比英伟达更好的产品

如今

英伟达得益于性能软件生态系统兼容性市场影响力方面的综合优势

依然在AI芯片领域保持着明显的领先地位

相信在其他厂商不断追赶的同时

英伟达也并不会停滞不前

在刚刚新发布的Blackwell芯片的加持下

训练相同参数模型需要的GPU数量消耗的电力

都可以缩减大约4倍

显然

AI芯片的发展对半导体产业产生了长远影响

接下来的问题是

谁能从英伟达的嘴里切走一大块蛋糕呢

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值