Triton推理服务器吞吐量测试


前言

性能分析器是优化模型性能的重要工具,决定如何在单个 GPU 上最好地运行多个模型。


安装测试环境

拉取镜像

docker pull nvcr.io/nvidia/tritonserver:22.08-py3-sdk

在这里插入图片描述

测试

启动测试环境

docker run -it --rm --net=host  -v/data/project/triton_deploy/models:/models -v/data/project/triton_deploy/plugins:/plugins nvcr.io/nvidia/tritonserver:22.08-py3-sdk

这里需要根据自己的路径修改models与plugins路径

在这里插入图片描述

对比同一模型不同并发数的吞吐量

perf_analyzer -m model_name --concurrency-range 1:4 --percentile=95 -i grpc

model_name为测试的模型名称
在这里插入图片描述

对比同一模型不同实例数的吞吐量

instance_group [ { count: 4}]添加到模型配置的末尾文件,然后重新启动 Triton

perf_analyzer -m model_name --concurrency-range 1:4 --percentile=95 -i grpc

在这里插入图片描述
这里看起来好像与默认实例相比没什么变化,不知道是不是因为我用的是yolov5x模型的原因,不太清楚!


总结

除了启用模型实例,还是可以设置启用动态批处理器,这两项也可以同时启用,可以根据自己的配置进行设置比较。通过模型分析器部分介绍了一种工具,可帮助我们了解模型的GPU 内存利用率,以便决定如何在单个 GPU 上最好地运行多个模型。
参考文档:https://github.com/triton-inference-server/server/blob/main/docs/user_guide/optimization.md
如果阅读本文对你有用,欢迎一键三连呀!!!
2022年9月15日20:12:35
在这里插入图片描述

  • 1
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 2
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

AI小笔记

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值