A100 、H100 则既有单卡高算力,又有提升卡间数据传输的高带宽。A100 的 FP32(指用 4 字节进行编码存储的计算)算力达到 19.5 TFLOPS(1 TFLOPS 即每秒进行一万亿次浮点运算),H100 的 FP32 算力更高达 134 TFLOPS,是竞品 AMD MI250 的约 4 倍。
A100、H100 还提供高效数据传输能力,尽可能减少算力闲置。英伟达的独家秘籍是自 2014 年起陆续推出的 NVLink、NVSwitch 等通信协议技术。用在 H100 上的第四代 NVLink 可将同一服务器内的 GPU 双向通信带宽提升至 900 GB/s(每秒传输 900GB 数据),是最新一代 PCle(一种点对点高速串行传输标准)的 7 倍多。
去年美国商务部对 GPU 的出口规定也正是卡在算力和带宽这两条线上:算力上线为 4800 TOPS,带宽上线为 600 GB/s。
A800 和 H800 算力和原版相当,但带宽打折。A800 的带宽从 A100 的 600GB/s 降为 400GB/s,H800 的具体参数尚未公开,据彭博社报道,它的带宽只有 H100(900 GB/s) 的约一半,执行同样的 AI 任务时,H800 会比 H100 多花 10% -30% 的时间。一名 AI 工程师推测,H800 的训练效果可能还不如 A100,但更贵。
即使如此,A800 和 H800 的性能依然超过其他大公司和创业公司的同类产品。受限于性能和更专用的架构,各公司推出的 AI 芯片或 GPU 芯片,现在主要用来做 AI 推理,难以胜任大模型预训练。简单来说,AI 训练是做出模型,AI 推理是使用模型,训练对芯片性能要求更高。