TensorRT量化模型分析(耗时分布可视化等)

TensorRT量化模型分析

一 背景

​ 在TensorRT模型量化中,若是PTQ方式能够解决量化模型精度问题,则优先选择PTQ,否则,会考虑通过QAT的方式优化模型。无论哪种方式,都不可避免要进行模型耗时分析,比如,了解模型某个模块甚至某个节点的耗时情况,才能更加精确的指导模型缩减耗时的方向。为此,我们需要统计模型的耗时分布,了解某个算子是通过何种精度(如fp32fp16int8)进行计算等。

项目交付紧急时,可能来不及使用QAT的方式进行训练,且这种情况下,如果PTQ又难以解决掉点问题,则我们往往会分析模型的不同模块,找到哪个模块量化后导致掉点严重,然后这些模块将不再被插入量化算子,保持其原始的模型结构。这种情况下可能会导致耗时增加,需要我们对模型的耗时分布有所了解,找到耗时原因。

二 准备工作

1.代码准备

  • 5
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值