手撕烂笔头-Nvidia数据中心GPU A100 H100的一些硬件规格情况

Nvidia 3条产品线

        - PC市场的GeForce产品线,比如RTX3090 4090 5090

        - 工作站市场的Quadro产品线

        - 数据中心高性能计算的Tesla产品线,比如V100 A100 H100

目前大模型主要依赖Tesla系列,比如chatgpt 就用了几千张A100或者H100训练

NVIDIA 数据中心的GPU大约2年推出一种微架构,从06年开始大概历史:(工艺不太准确 供参考级别)

1. 06年 Tesla特斯拉微架构 大概65nm工艺

2. 10年 Fermi费米微架构 大概40nm工艺

3. 12年 Kepler开普勒微架构 28nm,比如K110

4. 14年 Maxwell麦斯威尔微架构 28nm

5. 16年 Pascal帕斯卡微架构 12nm 用了FinFET工艺

6. 17年 Volta伏特微架构 10nm,智能音箱行业在17年左右突起,有些用了它

7. 20年 Amper安培微架构 台积电7nm,比如典型的A100(540亿晶体管)

8. 22年 Hopper赫柏(琥珀)微架构 台积电4nm,比如典型的H100(800亿晶体管)

预估下一代是AdaLovelace架构

另外所谓A100 H100的前缀A就是安培的Amper的A,H就是琥珀Hopper的H。如果下一代是AdaLovelace估计容易混淆,叫ADxxx了。

另外Nvidia的GPU迭代感觉基本2年一代,每一代封装工艺基本提升一代,但是封装工艺和当时最好的工艺基本差一代。比如22年3nm,H100用了4nm。20年5nm,A100用了7nm。GPU的封装工艺底层逻辑有一个依赖,就是封装工艺。

而且每一代微架构用一个科学家名字替代。比如Hopper是格蕾丝·赫柏,发明了实际上第一个编译器,AdaLovelace是世界上第一个程序员。

每代GPU迭代主要从算力、内存技术、PCIe版本、功耗几个维度提升。

算力体现在晶体管数量、CUDA核数量。

CUDA数量,A100约7k个CUDA核,算力大概0.6P(匹) FP32约19T;H100约1.4万CUDA核,算力大概0.9P(匹) FP32约60T(仅供级别参考,多型号不讨论)。暂时用匹类似马一样来比喻,P当做PFlops。

内存技术,A100主要用了HBM2e,H100用了HBM3(也有其他的仅供级别参考)。所以A100有40G80G两种,H100是80G内存带宽

PCIe版本,A100 PCIe4.0,H100 PCIe5.0。Nvlink待确定。

另外20年和A100对标的,家用GPU是RTX3090这一级别的,也是约7nm工艺(Samsung8LPU ),安培架构

22年和H100对标的,家用GPU是RTX4090这一级别的,4nm工艺,不过跳过了琥珀微架构

其他因为22年10月,美国封锁出口限制,超过600G的不能出口中国。所以出了H800中国特供,阉割了一些带宽。比如A800就从A100的600G到400G,H800就从H100的900G到450G。

所以从多维度看每一代就能看出一些门道。大概就是从内存带宽趋势、PCIe趋势、封装工艺趋势发展。

以后讨论A100,就想到是7nm,HBM2e内存和PCIe4.0

讨论H100,就想到是4nm,HBM3内存和PCIe5.0

其他:所谓CUDA(Compute Unified Device Architecture)核,在2010年发布的费米架构的时候才叫这个,本质是SP(stream processing)。然后多个SP组合成SM(stream mutilprocess),多个SM组合成TPC(纹理计算簇cluster)。构建出整个核心整列。

以上信息来源Wikipedia,更多参考Wikipedia。

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值