A100与A800 算力

A100 、H100 则既有单卡高算力,又有提升卡间数据传输的高带宽。A100 的 FP32(指用 4 字节进行编码存储的计算)算力达到 19.5 TFLOPS(1 TFLOPS 即每秒进行一万亿次浮点运算),H100 的 FP32 算力更高达 134 TFLOPS,是竞品 AMD MI250 的约 4 倍。


A100、H100 还提供高效数据传输能力,尽可能减少算力闲置。英伟达的独家秘籍是自 2014 年起陆续推出的 NVLink、NVSwitch 等通信协议技术。用在 H100 上的第四代 NVLink 可将同一服务器内的 GPU 双向通信带宽提升至 900 GB/s(每秒传输 900GB 数据),是最新一代 PCle(一种点对点高速串行传输标准)的 7 倍多。


去年美国商务部对 GPU 的出口规定也正是卡在算力和带宽这两条线上:算力上线为 4800 TOPS,带宽上线为 600 GB/s。


A800 和 H800 算力和原版相当,但带宽打折。A800 的带宽从 A100 的 600GB/s 降为 400GB/s,H800 的具体参数尚未公开,据彭博社报道,它的带宽只有 H100(900 GB/s) 的约一半,执行同样的 AI 任务时,H800 会比 H100 多花 10% -30% 的时间。一名 AI 工程师推测,H800 的训练效果可能还不如 A100,但更贵。


即使如此,A800 和 H800 的性能依然超过其他大公司和创业公司的同类产品。受限于性能和更专用的架构,各公司推出的 AI 芯片或 GPU 芯片,现在主要用来做 AI  推理,难以胜任大模型预训练。简单来说,AI 训练是做出模型,AI 推理是使用模型,训练对芯片性能要求更高。

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值