Tensor Rt的int8量化原理

最新推荐文章于 2025-02-10 10:36:28 发布

@BangBang

最新推荐文章于 2025-02-10 10:36:28 发布

阅读量859

点赞数

分类专栏：模型轻量化面试文章标签：人工智能深度学习机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_38346042/article/details/125990927

版权

模型轻量化同时被 2 个专栏收录

49 篇文章 ¥89.90 ¥99.00

订阅专栏

超级会员免费看

60 篇文章

订阅专栏

本文介绍了Tensor RT的INT8量化原理，旨在减少模型计算的精度损失，提高推理速度。主要内容包括线性量化和对称线性量化方法，探讨了如何通过优化阈值选择，特别是利用相对熵和KL散度进行校准，以最小化信息损失。同时，详细阐述了Tensor RT的量化流程，包括收集统计量、执行校准算法和生成INT8推理引擎。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

量化的目标

把神经网络运算的32浮点表示的权重，变成8为的Int整数，并且希望没有显著的准确率下降
为什么要采用In8,因为它可以带来更高的吞吐率，并且更少的内存占用
但是也面临挑战,Int8有更低的精度，并且有更小的动态范围
如何保证量化后的准确率呢，解决方案 ：对Int8量化后的模型权重和激活函数，进行最小化信息损失。
Tensor RT采用的方法，不需要额外的fine tuning 或重新训练。

In8推理

挑战

INT8 相对于FP32具有较低的精度和动态范围
从表中可以看出32位浮点，16位浮点,INT8 的动态范围有很大的不同，比如16位点是-65504 ~ +65504

了解本专栏

超级会员免费看

博客等级

码龄8年

578
原创

2473
点赞

1万+
收藏

1万+
粉丝

关注

私信

热门文章

分类专栏

LLM 付费 16篇
object detection 付费 148篇
BEV 感知付费 34篇
模型轻量化付费 49篇
图像分割付费 27篇
面试 60篇
深度学习 64篇
C++ 59篇
模型部署 28篇
图像分类 40篇
环境安装 6篇
pytorch 23篇
python 39篇
语音识别 3篇
opencv 25篇
自动驾驶 5篇
机器学习 7篇
CUDA 2篇
linux 7篇
振动信号 4篇
数据分析 5篇
leetcode 20篇
标定 2篇
git 9篇
Android 2篇
PHM 1篇
shell 4篇

最新评论

yolov8 PTQ和QAT量化实战(源码详解)
王钰森森。: 哥，你不是在搞抽象吧，量化完了指标变高了...这肯定不正常阿
yolov8 PTQ和QAT量化实战(源码详解)
@BangBang: 指标高了，不是挺好的嘛
yolov8 PTQ和QAT量化实战(源码详解)
@BangBang: 这个版端会帮你做的，你只需准备好经过量化后的onnx模型就行。国产版子他们有对应pytorch和板端部署工具的
yolov8 PTQ和QAT量化实战(源码详解)
王钰森森。: 还有一个代码里面的逻辑问题就是，在做敏感层分析时，你选取了量化之后的模型作为基准，在对某一层做量化分析的时候，指标反而要比没有量化的原模型指标要高，您可以看看是不是存在这个问题
yolov8 PTQ和QAT量化实战(源码详解)
@BangBang: pytorch端量化的目的，插入量化节点，利用校准数据计算量化参数并保存，在部署到板端会利用量化参数转int8。建议你了解下，量化的流程及原理。

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

@BangBang 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。