A800并发测试

高并发测试目的

主要测试A800显卡在以下场景下的生成token能力:

  • 单卡多卡
  • 单卡多服务
  • 多卡多服务
  • 多并发场景

测试结果

单卡启动1个服务
并发类型并发数量每秒生成tokens
多线程590
多线程1076
多线程3045
多线程5032
多线程10023
单卡启动2个服务
并发类型并发数量服务1每秒生成tokens服务2每秒生成tokens平均每秒生成tokens
多线程5828382.5
多线程10676968
多线程30434142
多线程50262827
多线程100192019.5
单卡启动3个服务
并发类型并发数量服务1每秒生成tokens服务2每秒生成tokens服务3每秒生成tokens平均每秒生成tokens
多线程587868887
多线程1070716970
多线程3041424041
多线程5033343233
多线程10020211920
双卡每个卡启动一个服务
并发类型并发数量卡1每秒生成tokens卡2每秒生成tokens平均每秒生成tokens
多线程5888888
多线程10737473.5
多线程30454645
多线程50333333
多线程100222021

测试结论

  1. 单张卡启动多少服务对生成token速度有影响,不同卡之间启动的服务数对生成token速度的影响可忽略不计。
  2. 以A800为例,设置--gpu_memory_utilization为0.25,建议每张卡启动三个服务,确保GPU利用率最高且服务稳定。

性能测试及高并发推理调度进程占用资源情况

  • 单卡多服务:每张卡最多启动3个服务,保持GPU内存使用率在0.25-0.4之间,确保服务稳定。
  • 多卡多服务:不同卡之间的服务启动数量对生成token速度影响不大,但需确保总的GPU内存使用率适当,以避免崩溃。
  • 8
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值