11111

kjzd123

于 2024-07-19 15:20:42 发布

阅读量255

点赞数 8

文章标签： java 数据库服务器

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/kjzd123/article/details/140550573

版权

高并发测试目的

主要测试A800显卡在以下场景下的生成token能力：

单卡多卡
单卡多服务
多卡多服务
多并发场景

测试结果

单卡启动1个服务

并发类型	并发数量	每秒生成tokens
多线程	5	90
多线程	10	76
多线程	30	45
多线程	50	32
多线程	100	23
多线程	150	14
多线程	200	13

单卡启动2个服务

并发类型	并发数量	服务1每秒生成tokens	服务2每秒生成tokens	平均每秒生成tokens
多线程	5	45	39	43
多线程	10	44	40	42
多线程	30	33	33	33
多线程	50	27	25	26
多线程	100	16	15	15
多线程	150	12	8	10
多线程	200	9	9	9

单卡启动3个服务

并发类型	并发数量	服务1每秒生成tokens	服务2每秒生成tokens	服务3每秒生成tokens	平均每秒生成tokens
多线程	5	45	31	32	36
多线程	10	38	30	28	33
多线程	30	24	23	22	23
多线程	50	18	16	18	17
多线程	100	14	14	14	14
多线程	150	10	11	9	10
多线程	200	6	10	11	9

双卡每个卡启动一个服务

并发类型	并发数量	卡1每秒生成tokens	卡2每秒生成tokens	平均每秒生成tokens
多线程	5	88	98	92
多线程	10	83	78	80
多线程	30	73	58	66
多线程	50	48	52	50
多线程	100	29	29	29
多线程	150	28	22	25
多线程	200	23	24	23

测试结果图

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

测试结论

单张卡启动多个服务的影响：
- 单卡上启动的服务数量对生成 token 的速度有显著影响。随着服务数量增加，平均每秒生成的 tokens 数量逐渐减少。这表明 GPU 资源在单卡多服务场景下的竞争加剧，导致性能下降。
不同卡之间的服务启动数量影响：
- 在双卡场景中，每张卡启动一个服务时，生成 token 的速度相对较高且稳定。不同卡之间启动的服务数量对生成 token 速度的影响较小，这表明多卡环境下，负载均衡更为高效。

性能测试及高并发推理调度进程占用资源情况

单卡多服务：
- 每张卡最多启动 3 个服务，保持 GPU 内存使用率在 0.25-0.4 之间，确保服务稳定。过多服务会导致资源竞争加剧，影响性能和稳定性。
多卡多服务：
- 多卡环境下，不同卡之间的服务启动数量对生成 token 速度影响不大。关键在于确保总的 GPU 内存使用率适当，以避免内存过载和服务崩溃。合理的 GPU 负载均衡和资源分配是提升性能的关键。

关注

8
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
11111

主要测试A800显卡在以下场景下的生成token能力：单张卡启动多个服务的影响：不同卡之间的服务启动数量影响：单卡多服务：多卡多服务：
复制链接

扫一扫

kjzd123 CSDN认证博客专家 CSDN认证企业博客

码龄5年

22: 原创

104万+: 周排名

6万+: 总排名

2万+: 访问

: 等级

412: 积分

104: 粉丝

175: 获赞

9: 评论

183: 收藏

私信

关注

热门文章

最新评论

RAG-Flow部署本地微调过的模型使用
黑白=_=: 为什么会出现这个问题呢？error pulling image configuration: download failed after attempts=6: dial tcp 173.252.88.xxxx: i/o timeout
RAG-Flow部署本地微调过的模型使用
weixin_39626569: 这写了个啥，还这么多赞，本地模型配置到ragflow里面是一点不讲
使用LlamaFactory进行模型微调：参数详解
bangbangbang93: 请问max-samples 是每个epoch的训练最大样本数吗？
本地部署基于LLama3知识库问答（OLLama+Oneapi+Fastgpt）
普通网友: 文章结构严谨有条,层次分明,读起来一点也不费劲，让人受益匪浅。【我也写了一些相关领域的文章，希望能够得到博主的指导，共同进步！】
本地部署基于LLama3知识库问答（OLLama+Oneapi+Fastgpt）
普通网友: 优质好文，细节很到位！【我也写了一些相关领域的文章，希望能够得到博主的指导，共同进步！】

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。