weixin_39579313-CSDN博客

原创超微B200推理性能测试

本次性能测试评估了DeepSeek-R1-0528模型在B200 GPU服务器上的推理性能，对比了TensorRT-LLM、SGLang和vLLM三种框架的表现。测试采用500并发、1万个请求，重点关注吞吐量(tokens/s)。结果显示：FP4量化模式下整机性能提升明显（TensorRT-LLM达3836.98 tokens/s），SGLang对B200支持最佳（吞吐量4442.75 tokens/s）。测试服务器配置为8块B200 GPU（单卡功耗约500W）、Intel 6960P CPU和3TB内存

2025-11-04 15:40:47 263

原创超微8卡B200基准带宽测试

本次测试评估了搭载8颗NVIDIA B200 GPU的超微服务器性能。结果显示：设备间P2P通信双向带宽达86TB/s，接近理论值的85%；主机与设备间带宽约55GB/s（PCIe5 x16理论64GB/s）；NCCL集合通信最大带宽接近840GB/s。P2P启用后，通信带宽显著提升（单向740GB/s→1460GB/s），延迟从20μs降至4μs。测试验证了该服务器在多卡协同、高速互连方面的优异表现，特别是在大规模数据传输场景下展现出色性能。

2025-11-04 15:34:35 418

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

原创 超微B200推理性能测试

原创 超微8卡B200基准带宽测试

空空如也

空空如也

原创超微B200推理性能测试

原创超微8卡B200基准带宽测试