模型量化
文章平均质量分 87
模型量化
时光机゚
为了我的名字~。~
展开
-
【论文阅读笔记】ZeroQ: A Novel Zero Shot Quantization Framework
论文地址:ZeroQ论文地址:https://github.com/amirgholami/ZeroQ论文总结 本文的方法是一种后量化方法,是不用finetune的一种方法。 本文的贡献主要有两点:(1)提出了一种方法,从模型的分析中生成更为接近训练数据的数据,用于得到activation的范围和计算每一层的量化损失。(作者称他生成数据的方式,叫做蒸馏,distilled,数据)(2)提出使用Pareto frontier方法去选择目标模型大小的一个混合精度。 本文的混合精度的选择,是在目标原创 2020-12-10 21:56:07 · 1809 阅读 · 2 评论 -
【论文阅读笔记】SYQ:Learning Symmetric Quantization For Efficient Deep Neural Networks
论文发布时间:2018-07论文地址:https://arxiv.org/pdf/1807.00301.pdf全文概括 SYQ相对于TTQ并没有明显的改进,大致是增加了尺度因子 α\alphaα 的个数(将每层的权重分为数个小组),使得最终性能比TTQ有所提升。(即本文仍然是对二元/三元权重的,但与TTQ不同的是,SYQ展示的实验结果为 low-bit 激活值的共同效果)。实验结果是在第一...原创 2018-11-13 19:06:53 · 1127 阅读 · 0 评论 -
【论文阅读笔记】Learning Accurate Low-Bit Deep Neural Networks with Stochastic Quantization
全文概要 SQ 是一种增量量化的方法,其大概思路和 INQ 一样,选择部分参数进行量化,其他保持全精度。即该方法只针对权重进行。 SQ 通过给定的一系列量化比例 r,选择一层中的 r 比例卷积核进行量化。衡量每个卷积核的量化误差,依据量化误差得到该卷积核被选为量化卷积核的概率(虽然最后发现均匀概率函数效果最好)。通过逐渐增加 r 的大小(从50%→75%→87.5%→100%50\%\ri...原创 2018-11-15 15:08:57 · 577 阅读 · 0 评论 -
【论文阅读笔记】BinaryConnect:Training Deep Neural Networks with binary weigts during propagations
全文概括 本文将权重量化为{−1,1}\{-1,1\}{−1,1}, 能让硬件计算从乘法变成加法。提出在前向和反向使用二值权重代替浮点全精度权重,但反向传播用全精度。 量化成二值权重的可行性,就像Dropout、Dropconnect一样,给权重添加噪声,可能不是一件坏事。BinaryConnect方法 两种量化方式:确定式量化(sign函数):wb={+1if w≥...原创 2018-11-15 21:03:52 · 1535 阅读 · 0 评论 -
【论文阅读笔记】Towards Effective Low-bitwidth Convolutional Neural Networks
全文概括 该论文主要是介绍了一些训练量化网络的Tricks,其4-bit网络的表现比 5-bit 的INQ网络效果要好一点。 该论文为训练量化网络提供了三个方法:两步优化策略 ,先量化权重,再量化激活值;(Two-step, TS)逐步量化 ,在训练过程中逐步减少量化位宽;(Progressive Quantization, PQ)联合训练 浮点网络和低精度网络;(Guided t...原创 2018-11-12 18:18:29 · 1352 阅读 · 0 评论 -
模型量化小结
目前,个人主要将当前模型量化的论文分为四个方向:2/3 bit的模型计算量化损失原理分析增量量化量化Tricks1/2 bit的模型计算 该方向,试图使用极低bitwei位的计算,使得原来加减乘除的计算变为简单的位加减运算,从而解放硬件上的需求。但由于其精度仍与float运算有一定距离(部分方法的论文未体现大差距,但都在很小的模型或者在冗余度极高的论文上进行试验,本人也未进一步验...原创 2019-06-11 16:38:52 · 1978 阅读 · 0 评论 -
【论文阅读笔记】Trained Ternary Quantization
论文发布时间:2016-12论文地址:https://arxiv.org/pdf/1612.01064.pdf全文概括 TTQ只量化权重,该方法将权重量化成三元,即2-bit。 与其他方法不同的是,该方法的尺度因子更具有“包容性”,不是某层权重元素绝对值的均值αl=∑∣w∣countl\alpha_l=\sum\frac{|w|}{count_l}αl=∑countl∣w∣,而是...原创 2018-11-13 16:36:16 · 1659 阅读 · 0 评论 -
【论文阅读笔记】Two-Step Quantization for Low-bit Neural Networks
概要总结 该方法主要就如论文名字一样,把量化激活值和权重的过程分为两步,其主要思想就是先量化激活值再量化权重(以前的方法将激活值和权重一起量化,这样两个量化方向紧密耦合)。 针对量化激活值,提出了稀疏量化方法(作者认为稀疏在网络压缩和加速中能起到很大的作用)。而对于权重量化,将权重量化看成 low-bit 的非线性最小二乘回归问题(对于权重而言,其目的就是得到和原先差不多的输出)。 将...原创 2018-11-10 17:36:02 · 2064 阅读 · 0 评论 -
【论文阅读笔记】Deep Learning with Low Precision by Half-wave Gaussian Quantization
概要总结 HWGQ-net主要是针对激活值进行量化,其从理论上分析如何去选择一个激活函数,以及使用近似方法来拟合量化的损失(使得量化的损失和梯度匹配)。 在前向传播时使用近似于ReLU函数的量化器,在反向传播使用适合的分段线性函数,来解决前向传播和反向传播的不匹配问题。(以前的前向传播多了个量化过程,而反向传播不作处理)。 该方法,对于重新训练模型会比较好(该文提出的量化器,可以作为激...原创 2018-11-09 22:55:47 · 1551 阅读 · 0 评论 -
【论文阅读笔记】Performance Guaranteed Network Accelerationvia High-Order Residual Quantization
方法概括 该方法在总结前人的基础上(BNN,Binarized Neural Network;Xnor-Net),提出了一个High-Order(高阶)的二元逼近方法。高阶的定义在于,原始的逼近会存在量化残差(Residual Quantization),而用另一个矩阵去逼近“遗失”的参数,这是一个迭代的过程,也就是越来越高阶的过程。最后得到的逼近矩阵,是原始逼近 + 迭代“遗失”逼近。 ...原创 2018-10-02 23:08:08 · 445 阅读 · 2 评论 -
LCDet:Low-Complexity Fully-Convolutional Neural Networks for Object Detectionin Embedded Systems
全文概括 本文的基本网络框架是YOLO,但用两层 conv 代替 两层 fc 。然后用 8-bit 量化了训练好的网络权重。Introduction 8-bit 量化回归任务,会比量化分类任务更容易造成精度下降。 经过试验显示,本文方法(量化后)的最高检测率比量化前的只低不到 1 2%1~2\%1 2%,但在帧率上达到了 202020x 倍的提升。 YO...原创 2018-10-03 01:10:38 · 225 阅读 · 0 评论 -
【论文阅读笔记】Incremental Network Quantizatio:Towards Lossless CNNs with Low-Precision Weights
全文概括 先前的量化方法(同时量化所有的weight)都太粗暴了,这导致了量化损失严重,作者提出一种分组量化-分组re-train的方法来拟补量化带来的损失。 INQ方法步骤:将为量化的参数分成 待量化/待re-train组(用超参数定义每次量化的百分比,百分比会自动在参数中找到一个临界点,绝对值大于这个临界点的分为待量化组 ,因为作者认为大值比小值重要,让小的re-train。这个观...原创 2018-10-03 16:24:04 · 782 阅读 · 3 评论 -
【论文阅读笔记】Deep Neural Network Compression with Single and Multiple Level Quantization
全文概括 本文是《Quantized Convolution Neural Networks for Mobile Devices》和《Incremental Network Quantization:Towards Lossless CNN with Low-Precision Weights》的思想结合。参考了前者的分层量化和k-means聚类共享权值,参考了后者的INQ思想,即同一层分块...原创 2018-10-03 17:30:37 · 990 阅读 · 0 评论 -
【论文阅读笔记】Quantization and Training of Neural Networks for Efficient Integer-Arithmetic-Only Inference
该方法的简称为:IAO 该论文提出了一种允许网络在推测时只使用整数计算的方法,即 float32 --> int8. 该文在MobileNets等已经压缩过的网络进行量化,测试数据集为ImageNet分类数据集。不同于其他的方法,在高度冗余的模型,如Alexnet等网络上进行的,且提出的硬件加速方法需要专门的特殊硬件(即他们并没有在真正的硬件上加速,只是提出一种理论),该方法在普通的...原创 2018-09-28 14:42:44 · 13646 阅读 · 31 评论 -
【论文阅读笔记】Network Sketching: Exploiting Binary Structure in Deep CNNs
全文概括 草图,就像在画画一样,是不断精确的基础,在二进制量化的应用上,即不断地逼近残差,如 HORQ (High-Order Residual Quantization) 一样。与 HORO 的区别在于,该方向并未二值化 Input,但其提出了一个新的 尺度因子的计算方式。 在 2-bit/ 1-bit 的极低精度的近似 ResNet-18 的结果展示上,其与 INQ 的精确度差不多,但...原创 2018-10-08 15:50:30 · 727 阅读 · 0 评论 -
【论文阅读笔记】Training Quantized Nets:A Deeper Understanding
全文概括 本文目的在于了解各种训练量化网络的方法的行为差异,成功或失败的原因。 本文证明了BC (用二进制权值进行 forward backward 更新权重由 full-precision )长期训练的行为具有非凸优化所需的重要退火特性,而经典的舍入算法缺乏这种特性。 本文证明了,对于非凸优化问题,SR(Stochastic Rounding)不会随着 lr 的衰减而稳定,即不会...原创 2018-10-08 21:20:50 · 686 阅读 · 2 评论 -
【论文阅读笔记】PACT:PArameterized Clipping Activation for Quantized Neural Networks
全文概括 本文目的是将 activation 和 weight 一起量化,其结果能量化 activation 和 weight 到 4-bit 大小,且准确度能和 full precision 媲美(在一系列流行的模型和数据集上)。 该方法是提出一个新的激活函数,即PACT(PArameterized Clipping Activation),其作用在训练阶段。 提出该激活函数的背景是...原创 2018-10-09 14:07:51 · 5616 阅读 · 0 评论 -
【论文阅读笔记】Ristretto: Hardware-Oriented Approximation of Convolutional Neural Networks
2. Convolutional Neural Networks2.2.1 Normalization layers Normalization layers(LRN、BN) require a very large dynamic range for intermediate values(need intermediate values, not parameters). In Alex...原创 2018-09-18 20:01:48 · 2042 阅读 · 1 评论