TensorRT cheat sheet

Untitled\n

于 2022-11-15 09:09:52 发布

阅读量371

点赞数 4

分类专栏：模型部署文章标签：人工智能 ai

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_41817841/article/details/127859247

版权

模型部署专栏收录该内容

1 篇文章 0 订阅

订阅专栏

TensorRT 备忘清单

问题	方案
如何检验TensorRT上计算结果的精度,找出精度不足的layer, 进行计算图优化	使用polygraphy
如何分析不同layer的推理时间, 找出耗时较大的layer	通过nsight systems得到运行阶段的timeline,并可视化
engine构建时间太长，怎么节约多次构建时的时间	使用Timing Cache
Dynamic Shape模式在min-opt-max跨度较大时性能下降	1. 构建期间创建多个OptimizationProfile, 每个profile范围要尽量小，方便TensorRT优化 2. 推理时根据数据形状选择相应的Profile, 缺点是会增加显存占用
怎样重叠计算和数据拷贝时间，增加GPU利用率	MultiStream，使用CUDA stream和CUDA event进行异步调用，同时使用Pinned memory
怎样使一个engine供多个线程使用	使用多个Context, 多个Context可以基于同一个engine独立的进行推理计算
怎样优化Kernel的调用，减少Launch Bound的发生也就是CPU发起函数调用，到GPU真正执行所花费的时间过大, 大部分时间浪费在准备工作和数据拷贝等步骤上	1. 使用Cuda Graph 2. 将大部分Launch准备工作提前完成 3. CUDA工作流优化
某些Layer的算法导致较大的误差，如何屏蔽掉该选择	通过算法选择器完成 1. 先通过ploygraph等工具发现某些层的Tactic结果不理想 2. 通过算法选择器屏蔽掉这些层 3. 重新构建engine
想更新模型的权重，但又不想重新构建engine	使用Refit
构建期/运行期显存占用过大，怎么减少	BuilderConfig中，默认开启了cuBLAS、cuBLASLt、cuDNN三个库的算子备选方案。TensorRT优选kernel的时候，会从中选择性能最好的实现来放入engine。可以人工屏蔽其中一种或多种库，从而禁止从这些库中选择算法来实现，可以节约内存和显存占用，减少engine构建时间缺点是可能会导致engine性能下降或构建失败。后续版本TensorRT会彻底断开对外部库的依赖

关注

4
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。