【论文分享】A White Paper on Neural Network Quantization【1，2】引言和基础知识

zoetu

已于 2022-09-16 11:51:46 修改

阅读量808

点赞数

分类专栏：论文阅读深度学习模型压缩文章标签：机器学习人工智能深度学习

于 2022-06-27 11:58:39 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_43800119/article/details/125369035

版权

深度学习模型压缩同时被 2 个专栏收录

14 篇文章 4 订阅 ¥299.90 ¥399.90

订阅专栏

超级会员免费看

29 篇文章 3 订阅

订阅专栏

本文深入探讨神经网络量化的基础知识，包括硬件背景、均匀仿射量化、量化模拟等方面，分析了训练后量化（PTQ）和量化感知训练（QAT）的优缺点，提供适用于CV和NLP任务的SOTA量化pipeline。

摘要由CSDN通过智能技术生成

本文目录

摘要

1. 引言

2. 量化基础知识

2.1 硬件背景

2.2 Uniform affine quantization 均匀仿射量化

Symmetric uniform quantization对称均匀量化

Power-of-two quantizer 2的幂次方量化

Quantization granularity 量化粒度

2.3 Quantization simulation 量化模拟

Batch normalization folding 批量归一化

Activation function fusing 激活功能融合

Other layers and quantization 其他层和量化

2.4 实际考量

Symmetric vs. asymmetric quantization 对称/非对称量化

Per-tensor and per-channel quantization 逐张量和逐通道量化

系列文章索引

参考资料

本文主要是神经网络量化的基础知识，比较难啃，初学者不建议直接观看。

摘要

神经网络以高计算成本取得前沿进展，因此将现有的网络集成到有严格的功率和计算要求的边缘设备需要降低神经网络推理的功率和延迟。
神经网络量化是最有效的实现方法之一，但是它诱导的额外噪声会导致精度下降。
本文介绍了SOTA算法（减轻量化噪声对网络性能的影响他同时保持低比特权值和激活），从硬件驱动的量化介绍开始，然后考虑了两类主要的算法：训练后量化（PTQ）和量化感知训练（QAT）。
- PTQ不需要重新训练或标记数据，因此是一种轻量级的量化按钮方法。大多数情况下，PTQ可以实现接近浮点精度的8位量化。
- QAT需要微调和访问标记训练数据，但可以实现具有竞争性结果的较低比特量化。
本文基于现有文献和扩展实验提供了测试好的pipelines，这些pipeilines对于常见的深度学习模型和任务达到了SOTA的性能。

1. 引言

研究问题及现有研究和本文结构

随着深度学习作为一种将

了解本专栏

超级会员免费看

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
打赏
0
评论
【论文分享】A White Paper on Neural Network Quantization【1，2】引言和基础知识

A White Paper on Neural Network Quantization【1，2】引言和基础知识
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

zoetu 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。