突发消息，芯片变天，H20降价，传闻四起

智星云算力

已于 2024-06-20 14:47:29 修改

阅读量1.6k

点赞数 3

文章标签：人工智能 gpu算力云计算

于 2024-05-27 16:09:22 首次发布

本文链接：https://blog.csdn.net/weixin_38978741/article/details/139240799

版权

据知情人士透露，英伟达为中国市场开发的最先进的人工智能（AI）芯片开局不利，由于供应充足，英伟达下调H20芯片价格。

H20性能相当于50%A100和15%H100，但大语言模型推理比H100快20%，是目前中国市场上能在合法渠道上买到的用于大模型训练的最先进的英伟达芯片。
在这里插入图片描述
虽然H20可能是目前唯一的“合法渠道”可购买芯片，但目前国内算力相对充足。

A100和H100几乎处于无限量供应状态，而且国产芯片也在崛起，所以不必悲观。

HGX H20、L20、L2三款 AI 芯片产品，分别基于英伟达的Hopper和Ada架构，适用于云端训练、云端推理以及边缘推理。其中，后两者L20、L2的 AI 推理产品有类似的“国产替代”、兼容CUDA的方案。

而HGX H20：是高缓存、高带宽，但是算力性能差，这主要是美国禁令的要求和限制。H20是基于H100、通过固件阉割方式 AI 训练芯片产品，主要替代A100/H800，国内除了英伟达，模型训练方面很少有类似国产方案。
在这里插入图片描述
H20单卡训练关键算力阉割相对A100超过一半，约为H100的1/10。据估计H20算力基本上相当于A100的10%（FP64）、40%（FP32）、50%（TF 32 tensor core/ FP32）、40%（FP16 tensor core）、40%（int8）。

据评估，H100/H800是目前算力集群的主流实践方案。其中，H100理论极限在5万张卡集群，最多达到10万P算力；H800最大实践集群在2万-3万张卡，共计4万P算力；A100最大实践集群为1.6万张卡，9600P算力。

然而，如今新的H20芯片，理论极限在5万张卡集群，但每张卡算力为0.148P，共计近为7400P算力，远低于H200、H100、A100、H800、A800等。
在这里插入图片描述
因此，H20集群规模远达不到H100的理论规模，基于算力与通信均衡度预估，合理的整体算力中位数为3000P左右，需增加更多成本，扩展更多算力才能完成千亿级参数模型训练。