智算中心建设主流加速卡选型策略

智算中心建设主流加速卡选型对比 —— 加速卡H800、A800、L40S、***B

一、加速卡基本性能比较

序号比较项H800A800L40S某国产NPU(本文简称“nB”)

1

加速卡类型

GPU

GPU

GPU

NPU

2

供应商

英伟达

英伟达

英伟达

-

3

FP32(TFLOPS)

67

19.5

91.6

94

4

FP16 AI算力(TFLOPS)

989.5

312

362

312.5

5

RT算力(TFLOPS)

212

6

加速卡内存容量(GB)

80GB HBM3

80GB HBM2e

48GB GDDR6

64GB HBM2e

7

加速卡内存带宽

3.35 TB/s

2TB/s

864GB/s

2TB/s

8

外形规格

SXM

SXM

PCIe双槽

OAI OAM 模组

9

互连技术

NVLink:400GB/s PCIe5.0:128GB/s

NVLink:400GB/sPCIe4.0:64GB/s

PCIe4.0:64GB/s

HCCS:392GB/sPCIe5.0:128GB/s

10

功耗(W)

700

400

350

400

11

RDMA出口带宽

400Gbps IB

200Gbps IB

100Gbps/200Gbps IB/RoCE

200Gbps RoCE

12

RDMA出口方式

通过IB网口扩展出口

通过IB网口扩展出口

通过IB/RoCE网口扩展出口

模组芯片直出网口

  • 说明-1:为了对比,英伟达FP16 AI算力未采用疏技术的算力数值。
  • 说明-2:PCIe互联带宽是双向的。

二、按千卡(1024)进行比较

三、按同等AI算力(FP16 AI算力320P)比较

四、应用场景(大模型、元宇宙)比较

五、比较总结与选型建议

1. 加速卡基本性能比较 —— 从单卡性能的角度看:

  • H800的AI算力最强,是最佳的大模型训练的优选型号。
  • L40S同时提供AI算力和渲染算力,支持模型微调与推理,以及渲染和3D建模,且AI算力优于A800和nB。

2. 按千卡(1024)进行比较 —— 从千卡性能和建设成本来看:

  • 千卡H800的AI算力达到1013P,但是价格也是最高的。千卡L40S的AI算力为375.3P,仅次于千卡H800,高于千卡A800(319.5P)和千卡nB(320P)。
  • 千卡A800的建设成本是千卡H800的62.14%,千卡nB的建设成本是千卡H800的66.98%,而千卡L40S的建设成本是千卡H800的52.25%。
  • 另外,千卡L40S同时提供217P的RT算力,可用于后续大模型落地应用的推理、渲染以及3D建模。

因此,千卡L40S集群是性价比最优的。

3. 按同等AI算力(FP16 AI算力320P)比较 —— 从同等AI算力(320P)来看:

  • H800集群最小,只需要41台(328块H800),建设成本最低的。
  • L40S集群次小,只需要110台(880块L40S),建设成本较低,低于A800集群和nB集群。
  • 此外,L40S集群还同时提供187P的RT算力,可适用于渲染和3D建模应用场景。

因此,同等AI算力比较L40S集群建设成本较低,且同时适用于更多应用场景,包括:训练、微调、推理、渲染和3D建模等。

4. 应用场景(大模型、元宇宙)比较 —— 从应用场景来看:

  • H800和A800仅提供AI算力,适用于训练、推理、微调和推理加速。
  • L40S是万能卡,可以用于训练和微调,也可以用于推理、渲染与3D建模,且性能优于A800和nB。
  • L40S可用于大模型生态从上游技术研发、中游的验证、下游的应用场景落地全生命周期都可以应用。
  • nB在大模型训练、推理和推理加速上需要一定的适配。

因此,L40S是适用于大模型和元宇宙应用场景的通用选择,在目前大模型研发阶段可用于基础模型训练、模型微调,在大模型落地的应用落地阶段可以用于推理。

5. 市场采购难易情况

  • H800和A800目前作为主流的大模型训练卡,在国内互联网、大模型创业公司屯货的情况下,目前H800、A800极其紧张,很难从库存中抢到相应的现货;
  • L40S相对H800和A800在国内还有一定量的库存,目前互联网大厂、大模型创业公司都处于大模型研发阶段,大家现阶段更倾向于高效研发大模型的H800,故L40S现货的竞争相对小,有一些稳定的供货渠道;
  • nB目前供货周期有比较大的延长,从目前市场信息来看,接下来还会面临普遍涨价的情况。目前来看供货量远不及通过其它途径进入国内的H100、A100芯片数量。

在考虑智算中心整体规划可以从大模型全生命周期来考虑,可以分步从中心、区域、边缘的方式考虑建设的阶段。考虑到长期的投资回报和资源持续使用周期,可以选择L40S这类现在合适做训练,随着芯片技术的成熟变成相对低端的性能。在3~5年后服役后,可残值利用拆散放到边缘数据中心作为靠近用户侧的推理、渲染的应用落地。

  • 15
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值