智算中心建设主流加速卡选型策略

OpenInfra

于 2024-02-06 09:00:00 发布

阅读量1.3k

点赞数 15

文章标签：人工智能智算中心加速卡

本文链接：https://blog.csdn.net/OpenInfra/article/details/136040157

版权

智算中心建设主流加速卡选型对比 —— 加速卡H800、A800、L40S、*B**

一、加速卡基本性能比较

序号	比较项	H800	A800	L40S	某国产NPU（本文简称“nB”）
1	加速卡类型	GPU	GPU	GPU	NPU
2	供应商	英伟达	英伟达	英伟达	-
3	FP32（TFLOPS）	67	19.5	91.6	94
4	FP16 AI算力（TFLOPS）	989.5	312	362	312.5
5	RT算力（TFLOPS）	无	无	212	无
6	加速卡内存容量（GB）	80GB HBM3	80GB HBM2e	48GB GDDR6	64GB HBM2e
7	加速卡内存带宽	3.35 TB/s	2TB/s	864GB/s	2TB/s
8	外形规格	SXM	SXM	PCIe双槽	OAI OAM 模组
9	互连技术	NVLink：400GB/s PCIe5.0：128GB/s	NVLink：400GB/sPCIe4.0：64GB/s	PCIe4.0：64GB/s	HCCS：392GB/sPCIe5.0：128GB/s
10	功耗（W）	700	400	350	400
11	RDMA出口带宽	400Gbps IB	200Gbps IB	100Gbps/200Gbps IB/RoCE	200Gbps RoCE
12	RDMA出口方式	通过IB网口扩展出口	通过IB网口扩展出口	通过IB/RoCE网口扩展出口	模组芯片直出网口

说明-1：为了对比，英伟达FP16 AI算力未采用疏技术的算力数值。
说明-2：PCIe互联带宽是双向的。

二、按千卡（1024）进行比较

三、按同等AI算力（FP16 AI算力320P）比较

四、应用场景（大模型、元宇宙）比较

五、比较总结与选型建议

1. 加速卡基本性能比较 —— 从单卡性能的角度看：

H800的AI算力最强，是最佳的大模型训练的优选型号。
L40S同时提供AI算力和渲染算力，支持模型微调与推理，以及渲染和3D建模，且AI算力优于A800和nB。

2. 按千卡（1024）进行比较 —— 从千卡性能和建设成本来看：

千卡H800的AI算力达到1013P，但是价格也是最高的。千卡L40S的AI算力为375.3P，仅次于千卡H800，高于千卡A800（319.5P）和千卡nB（320P）。
千卡A800的建设成本是千卡H800的62.14%，千卡nB的建设成本是千卡H800的66.98%，而千卡L40S的建设成本是千卡H800的52.25%。
另外，千卡L40S同时提供217P的RT算力，可用于后续大模型落地应用的推理、渲染以及3D建模。

因此，千卡L40S集群是性价比最优的。

3. 按同等AI算力（FP16 AI算力320P）比较 —— 从同等AI算力（320P）来看：

H800集群最小，只需要41台（328块H800），建设成本最低的。
L40S集群次小，只需要110台（880块L40S），建设成本较低，低于A800集群和nB集群。
此外，L40S集群还同时提供187P的RT算力，可适用于渲染和3D建模应用场景。

因此，同等AI算力比较L40S集群建设成本较低，且同时适用于更多应用场景，包括：训练、微调、推理、渲染和3D建模等。

4. 应用场景（大模型、元宇宙）比较 —— 从应用场景来看：

H800和A800仅提供AI算力，适用于训练、推理、微调和推理加速。
L40S是万能卡，可以用于训练和微调，也可以用于推理、渲染与3D建模，且性能优于A800和nB。
L40S可用于大模型生态从上游技术研发、中游的验证、下游的应用场景落地全生命周期都可以应用。
nB在大模型训练、推理和推理加速上需要一定的适配。

因此，L40S是适用于大模型和元宇宙应用场景的通用选择，在目前大模型研发阶段可用于基础模型训练、模型微调，在大模型落地的应用落地阶段可以用于推理。

5. 市场采购难易情况

H800和A800目前作为主流的大模型训练卡，在国内互联网、大模型创业公司屯货的情况下，目前H800、A800极其紧张，很难从库存中抢到相应的现货；
L40S相对H800和A800在国内还有一定量的库存，目前互联网大厂、大模型创业公司都处于大模型研发阶段，大家现阶段更倾向于高效研发大模型的H800，故L40S现货的竞争相对小，有一些稳定的供货渠道；
nB目前供货周期有比较大的延长，从目前市场信息来看，接下来还会面临普遍涨价的情况。目前来看供货量远不及通过其它途径进入国内的H100、A100芯片数量。

在考虑智算中心整体规划可以从大模型全生命周期来考虑，可以分步从中心、区域、边缘的方式考虑建设的阶段。考虑到长期的投资回报和资源持续使用周期，可以选择L40S这类现在合适做训练，随着芯片技术的成熟变成相对低端的性能。在3~5年后服役后，可残值利用拆散放到边缘数据中心作为靠近用户侧的推理、渲染的应用落地。