A800并发测试

kjzd123

已于 2024-06-20 11:53:22 修改

阅读量315

点赞数 8

文章标签：人工智能 transformer gpt-3

于 2024-06-19 11:26:34 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/kjzd123/article/details/139797326

版权

高并发测试目的

主要测试A800显卡在以下场景下的生成token能力：

单卡多卡
单卡多服务
多卡多服务
多并发场景

测试结果

单卡启动1个服务

并发类型	并发数量	每秒生成tokens
多线程	5	90
多线程	10	76
多线程	30	45
多线程	50	32
多线程	100	23

单卡启动2个服务

并发类型	并发数量	服务1每秒生成tokens	服务2每秒生成tokens	平均每秒生成tokens
多线程	5	82	83	82.5
多线程	10	67	69	68
多线程	30	43	41	42
多线程	50	26	28	27
多线程	100	19	20	19.5

单卡启动3个服务

并发类型	并发数量	服务1每秒生成tokens	服务2每秒生成tokens	服务3每秒生成tokens	平均每秒生成tokens
多线程	5	87	86	88	87
多线程	10	70	71	69	70
多线程	30	41	42	40	41
多线程	50	33	34	32	33
多线程	100	20	21	19	20

双卡每个卡启动一个服务

并发类型	并发数量	卡1每秒生成tokens	卡2每秒生成tokens	平均每秒生成tokens
多线程	5	88	88	88
多线程	10	73	74	73.5
多线程	30	45	46	45
多线程	50	33	33	33
多线程	100	22	20	21

测试结论

单张卡启动多少服务对生成token速度有影响，不同卡之间启动的服务数对生成token速度的影响可忽略不计。
以A800为例，设置--gpu_memory_utilization为0.25，建议每张卡启动三个服务，确保GPU利用率最高且服务稳定。

性能测试及高并发推理调度进程占用资源情况

单卡多服务：每张卡最多启动3个服务，保持GPU内存使用率在0.25-0.4之间，确保服务稳定。
多卡多服务：不同卡之间的服务启动数量对生成token速度影响不大，但需确保总的GPU内存使用率适当，以避免崩溃。

关注

8
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
A800并发测试

【代码】A800并发测试。
复制链接

扫一扫

kjzd123 CSDN认证博客专家 CSDN认证企业博客

码龄5年

20: 原创

39万+: 周排名

5万+: 总排名

1万+: 访问

: 等级

376: 积分

100: 粉丝

161: 获赞

7: 评论

169: 收藏

私信

关注

热门文章

最新评论

使用LlamaFactory进行模型微调：参数详解
bangbangbang93: 请问max-samples 是每个epoch的训练最大样本数吗？
本地部署基于LLama3知识库问答（OLLama+Oneapi+Fastgpt）
普通网友: 文章结构严谨有条,层次分明,读起来一点也不费劲，让人受益匪浅。【我也写了一些相关领域的文章，希望能够得到博主的指导，共同进步！】
本地部署基于LLama3知识库问答（OLLama+Oneapi+Fastgpt）
普通网友: 优质好文，细节很到位！【我也写了一些相关领域的文章，希望能够得到博主的指导，共同进步！】
LLaMA-Factory微调LLama2
普通网友: 干货满满，细节很到位！【我也写了一些相关领域的文章，希望能够得到博主的指导，共同进步！】
本地部署基于LLama3知识库问答（OLLama+Oneapi+Fastgpt）
普通网友: 优质好文，支持支持。【我也写了一些相关领域的文章，希望能够得到博主的指导，共同进步！】

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。