2024年3月,英伟达在GTC大会上正式发布了基于Blackwell架构的B200 GPU。Blackwell架构的发布是英伟达技术创新的又一力作。B200 GPU为训练和推理万亿参数的大型语言模型(LLM)提供了无与伦比的计算能力,同时在能效和安全性方面实现了显著提升。
一、Blackwell架构的核心特性
Blackwell架构以美国数学家David Harold Blackwell命名,象征着其在计算领域的开创性。相较于前代Hopper架构,Blackwell在设计和性能上实现了多项突破,以下是其核心特性:
1、双芯片设计与2080亿晶体管
B200 GPU采用双芯片(dual-die)设计,每个芯片面积超过800平方毫米,总计包含2080亿个晶体管,是Hopper H100(800亿晶体管)的两倍以上。这种设计通过10 TB/s的芯片间高速互联(NV-HBI)将两个芯片整合为一个统一的CUDA GPU,显著提升了计算密度和性能。这种多芯片模块(MCM)技术解决了单芯片在物理尺寸和制造工艺上的限制,为处理复杂AI工作负载提供了更大空间。
2、先进的制造工艺
B200采用台积电定制的4NP工艺,相较于H100的4nm工艺,性能提升约6%。这一工艺不仅提高了晶体管密度,还优化了功耗效率,使B200能够在高性能的同时保持相对可控的能耗。
3、第二代Transformer引擎
Blackwell引入了第二代Transformer引擎,支持4位浮点(FP4)计算,结合NVIDIA TensorRT-LLM和NeMo框架,显著提升了大型语言模型的推理效率。