8卡 5880 Ada 并发测试 Deepseek 32B/70B

最近收到不少用户反馈还有什么配置适合企业进行DS本地化部署,本期我们测试8卡NVIDIA RTX 5880 Ada 在 DeepSeek 32B(FP16/FP8)、70B(FP16)中的并发性能,同时也额外测试 8卡 L20 的对比,来看看它们的测试表现。

测试环境:

GPU:8卡 RTX 5880 Ada 48G

CPU:英特尔® 至强® Silver 4314

内存:256GB DDR4 硬盘:3.84TB

数据仅供大家参考:

DeepSeek-R1-Distill-32B FP16

DeepSeek-R1-Distill-32B FP8

DeepSeek-R1-Distill-70B FP16

 

测试结果:

32B FP16 vs 32B FP8

1.对话问答场景

FP8 相较 FP16 综合提升8%~15%,当并发数越低,提升越大。

在32B FP16和FP8场景中,并发数<128时,8卡 5880 Ada 的Tokens/s>17,在高并发情况下的表现优秀。

2.模拟RAG场景

在并发数较低时,FP8相较FP16有一定的提升,当并发数>64时,提升很小。(并发数低时测试可能存在一定误差)

综上所述,当并发数<64时,无论是32B FP16 还是 FP8,8卡 5880 Ada 都能很好的支持模拟RAG场景。

32B FP16 vs 70B FP16

1.对话问答场景

当模型大小从32B提升到70B,从上图可以看出两者 Tokens/s 的变化趋势,8卡 5880 Ada 在两个模型中的表现符合预期。

并发数<80时,8卡 5880 Ada 的Tokens/s>13,高并发场景下表现优秀。

2.模拟RAG场景

在模拟RAG场景中,明显可看出70B模型比32B模型的算力需求更大。

32B模型中,并发数<80时,Tokens/s>9,高并发模拟RAG场景中表现较优秀。

70B模型中,并发数<16时,Tokens/s>6,表现良好。并发数>32时,稍显缓慢。

额外测试:

8卡 5880 Ada vs 8卡 L20(32B FP8)

我们同时也测试了8卡 L20 在 32B FP8 中的表现,并与8卡 5880 Ada 作比较。

在对话问答场景中,并发数<64时,两者Tokens/s>27,表现优秀。8卡 5880 Ada 相较 8卡 L20 综合提升 9%~13%

测试小结

  1. 8卡 5880 Ada 能够很好的支持 32B FP8 和 FP16,不过 FP8 相较 FP16 提升较小,因此建议部署 FP16
  2. 8卡 5880 Ada 能够支持部署 70B FP16,并且在对话问答场景中表现优秀,在模拟RAG场景中,并发数过高会有算力压力。

联系后台可申请体验,或加入赞奇 DeepSeek 应用交流群

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值