- 博客(2)
- 收藏
- 关注
原创 超微B200推理性能测试
本次性能测试评估了DeepSeek-R1-0528模型在B200 GPU服务器上的推理性能,对比了TensorRT-LLM、SGLang和vLLM三种框架的表现。测试采用500并发、1万个请求,重点关注吞吐量(tokens/s)。结果显示:FP4量化模式下整机性能提升明显(TensorRT-LLM达3836.98 tokens/s),SGLang对B200支持最佳(吞吐量4442.75 tokens/s)。测试服务器配置为8块B200 GPU(单卡功耗约500W)、Intel 6960P CPU和3TB内存
2025-11-04 15:40:47
223
原创 超微8卡B200基准带宽测试
本次测试评估了搭载8颗NVIDIA B200 GPU的超微服务器性能。结果显示:设备间P2P通信双向带宽达86TB/s,接近理论值的85%;主机与设备间带宽约55GB/s(PCIe5 x16理论64GB/s);NCCL集合通信最大带宽接近840GB/s。P2P启用后,通信带宽显著提升(单向740GB/s→1460GB/s),延迟从20μs降至4μs。测试验证了该服务器在多卡协同、高速互连方面的优异表现,特别是在大规模数据传输场景下展现出色性能。
2025-11-04 15:34:35
362
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅