DeepSeek-r1:671b性能压测&H100
前言
继上次结合K8s、SGLang、LWS 等技术栈,完成分布式 DeepSeek-r1 推理集群的部署后,经过几天的实际使用,发现当并发数达到一定阈值时,性能出现下降。为进一步评估和优化集群性能,现对已部署的 DeepSeek-r1 推理集群进行深入的性能压测。
选型LLM 性能压测工具
经过调研,选择 推理引擎 SGLang 自带的 sglang.bench_serving
基准测试工具,以及 Locust
和 EvalScope
两款成熟的性能测试工具,进行全面的性能评估。
测试环境
- • CPU:INTEL® XEON® PLATINUM 8558 * 2 (192核/台)
- • GPU:NVIDIA H100 80GB HBM3 * 2台(共计16卡,显存:1280GB)
- • RAM:2.0TB/台
- • OS:Ubuntu 22.04.5 LTS
- • RDMA:4 * IB(400