量化总结2-tensorrt、ncnn的后量化方式

最新推荐文章于 2024-05-24 16:20:30 发布

lovep1

最新推荐文章于 2024-05-24 16:20:30 发布

阅读量1.3k

点赞数

分类专栏：模型压缩加速文章标签：神经网络深度学习 pytorch caffe

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/lovep1/article/details/113718578

版权

1、Tensorrt的量化方式/ncnn

对称的饱和量化，从ncnn的源码来看，使用的是逐通道量化，tensorrt没看源码就不知道了（应该也是）：

问题的核心转化为如何寻找一个最优值T，是的饱和量化能够精度最小，转化为最优化的问题。

英伟达使用kl散度来比较量化前后两个分布的差异，即相对熵，则问题转化为求相对熵的最小值。1、从信息熵的角度来解释，kl散度最小则代表两个分布差异最小。2、将log换为以2为底的数，则代表信息的编码字组组成，编码信息量的差异。

量化流程（尽量去简化理解，其实很简单）：

准备一个校准数据集，收集校准表，对每一层：

收集激活值的直方图
基于不同的阈值（浮点的截断阈值）产生不同的量化分布
计算每个分布与原分布的相对熵，选择min值，则得到最像原分布的1个。

此时，便选出了阈值，也就得到了scale。

量化流程伪代码

最低0.47元/天解锁文章

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
2
评论
量化总结2-tensorrt、ncnn的后量化方式

1、Tensorrt的量化方式/ncnn对称的饱和量化，从ncnn的源码来看，使用的是逐通道量化，tensorrt没看源码就不知道了（应该也是）：问题的核心转化为如何寻找一个最优值T，是的饱和量化能够精度最小，转化为最优化的问题。英伟达使用kl散度来比较量化前后两个分布的差异，即相对熵，则问题转化为求相对熵的最小值。1、从信息熵的角度来解释，kl散度最小则代表两个分布差异最小。2、将log换为以2为底的数，则代表信息的编码字组组成，编码信息量的差异。量化流程（尽量去简化理解，其实很.
复制链接

扫一扫

专栏目录

评论 2

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。