11111

高并发测试目的

主要测试A800显卡在以下场景下的生成token能力:

  • 单卡多卡
  • 单卡多服务
  • 多卡多服务
  • 多并发场景

测试结果

单卡启动1个服务
并发类型并发数量每秒生成tokens
多线程590
多线程1076
多线程3045
多线程5032
多线程10023
多线程15014
多线程20013
单卡启动2个服务
并发类型并发数量服务1每秒生成tokens服务2每秒生成tokens平均每秒生成tokens
多线程5453943
多线程10444042
多线程30333333
多线程50272526
多线程100161515
多线程15012810
多线程200999
单卡启动3个服务
并发类型并发数量服务1每秒生成tokens服务2每秒生成tokens服务3每秒生成tokens平均每秒生成tokens
多线程545313236
多线程1038302833
多线程3024232223
多线程5018161817
多线程10014141414
多线程1501011910
多线程200610119
双卡每个卡启动一个服务
并发类型并发数量卡1每秒生成tokens卡2每秒生成tokens平均每秒生成tokens
多线程5889892
多线程10837880
多线程30735866
多线程50485250
多线程100292929
多线程150282225
多线程200232423

测试结果图

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

测试结论

  1. 单张卡启动多个服务的影响

    • 单卡上启动的服务数量对生成 token 的速度有显著影响。随着服务数量增加,平均每秒生成的 tokens 数量逐渐减少。这表明 GPU 资源在单卡多服务场景下的竞争加剧,导致性能下降。
  2. 不同卡之间的服务启动数量影响

    • 在双卡场景中,每张卡启动一个服务时,生成 token 的速度相对较高且稳定。不同卡之间启动的服务数量对生成 token 速度的影响较小,这表明多卡环境下,负载均衡更为高效。

性能测试及高并发推理调度进程占用资源情况

  • 单卡多服务

    • 每张卡最多启动 3 个服务,保持 GPU 内存使用率在 0.25-0.4 之间,确保服务稳定。过多服务会导致资源竞争加剧,影响性能和稳定性。
  • 多卡多服务

    • 多卡环境下,不同卡之间的服务启动数量对生成 token 速度影响不大。关键在于确保总的 GPU 内存使用率适当,以避免内存过载和服务崩溃。合理的 GPU 负载均衡和资源分配是提升性能的关键。
  • 8
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值