VIT quantization相关论文阅读

最新推荐文章于 2025-02-11 20:44:38 发布

RANKING666

最新推荐文章于 2025-02-11 20:44:38 发布

阅读量1.9k

点赞数 1

文章标签：论文阅读深度学习人工智能

本文链接：https://blog.csdn.net/weixin_42638415/article/details/127392469

版权

1. Q-ViT: Fully Differentiable Quantization for Vision Transformer*

本文主要是借鉴LSQ，对于quantization scales 和bit-widths都进行训练，同时对于两者的联合优化问题，提出了一种switchable scale的方法。经过作者实验，模块中的GELU对于量化是非常敏感的，需要高bit的量化，因此混合量化，同时不同的head，对于量化的敏感度也是不同的，因此提出了一种head wise级别的量化方法去学习不同的量化位宽

具体方法：

对于量化位宽b来说，离散的，作者采用阶段的思想来做：

所以b波浪就是可以训练的，采用ste直通的方法。

但是这样会存在两个方面的缺点：1.没有考虑到VIT独特的结构 2：两者联合训练会导致不稳定不容易收敛。所以作者提出head-wise bit-width 和 switchable scale两种方法。

Head-wise Bit-width:

说白了就是channel 量化，因为在vit中，每个head都是独立计算的，因此完全可以采用不同的b

Switchable Scale:

假设xmax-xmin是固定的，那么α的最优解与b就是指数相关的，这在联合训练过程中是非常不稳定的。所以作者采用switchable batch normalization的灵感，

这里其实我看论文并没有很理解，之后会去读一下代码，跑一跑试试，看图来说，就是采用动态神经网络的思想，比如3.7就选择4这样。

然后，在训练的时候添加上了复杂度约束BitOPs，来尽可能降低b位宽

2. Post-Training Quantization for Vision Transformer

PTQ用在vit上的开山之作（应该是）首先，就说VIT的特殊之处在于self-attention结构，可以计算全局的特征相似性，非常重要作者从实验中发现量化会改变attention map的相对次序，这个会造成很大的精度损失，所以提出了一种ranking loss来解决这个问题

这个公式比较难理解，需要仔细推一推transformer中的前向推理过程

这个公式是，色他-m如果小于0，那么就输出0，如果大于0就是输出色i他-m。

A就是attention计算出来的。所以ranking loss是什么意思，就是说不同的图像块之间，相差越大越好，相差越大证明m越大，那么loss就是0。具体可画出Q和K计算的图，发现是个矩阵，每一行是第一个图片块向其他的他的块求注意力。

然后，就是最基本的重建误差最小，但是这里用的是什么系数，越大证明两者越相似。

所以最终的优化损失函数如下：

这里优化的方式是首先固定输入的interval，调整weight的interval进行优化，然后反过来固定weight的interval，调整输入的interval来进行优化，上面两步循环进行，直到loss收敛，或者达到最大迭代步数，weight和activation都是minmax初始化。

同时借鉴了DFQ论文中的bias correletion的方法，

将量化误差吸收

最后是混合精度量化:

Nuclear Norm Based Mixed-Precision Quantization

也就是谁对量化敏感，谁就分的位宽高一点。这里采用svd分解，奇异值分解得到的奇异值的和就是矩阵的核范数，可以表述这个矩阵的数据相关性，本文用这个核范数来表征量化的敏感程度，用来作为混合精度Bit-width设置的依据.主要思想：根据bit-width变化造成的二阶扰动来对不同bit-width配置进行排序，排序的指标如下：给定一个目标的model size，根据上述的指标对不同bit-width配置进行排序，然后选取最小扰动的配置

最后是整体流程图：

3. PTQ4ViT: Post-Training Quantization for Vision Transformers with Twin Uniform Quantization

这篇论文首先是发现在激活经过softmax和GELU之后的分布并不是高斯分布，分布非常极端，也就是

softmax之后的分布是[0,1]之间的不均匀分布，大部分数值靠近0，其余非常少；
GELU函数之后的分布具有不对称性，正数部分范围大负数部分范围小；

所以作者采用了通俗点说就是两个scale。

另一个方面，作者观察到像以往的方法，使用MSE或者cosine距离, Person相关系数来确定scale的选取范围并不准确，因为都是利用的局部信息；所以作者就使用了海森矩阵来指导。

除了第一层和最后一层没有进行量化之外，其余层的输入和权重都进行了量化，还包括self-attention层的两个输入矩阵，对于不同的head采用不同的scale，有点类似于per-channel的意思

整体流程如下：

具体流程：

首先base 量化：

先优化一个冻住，再优化另一个。

Twin Uniform Quantization

针对于前面说到的问题，可以看到，采用了两种scale

对于softmax来说，也就是说R1对应的是小的，采用2k-1量化，优化R1，同时为了方便计算，

这样在前向推理时，两个模块加在一起也是移位的运算，前向推理的时候根据最高位来判断使用哪个scale，对于GELU，符号位即可区分，对于softmax，最高位是0表示前一半，最高位是1表示是后一半。

Hessian Guided Metric：

这其实就是直接用了BRECQ论文的layer-wise重建方法

最后算法整体流程：

4. FQ-ViT: Post-Training Quantization for Fully Quantized Vision Transformer

这篇文章可以认为是上面那篇Post-Training Quantization for Vision Transformer的补充，就是对这篇论文中没有量化的softmax和Layer norm进行量化。对于Layer norm来说，，作者发现了输入的严重通道内的反应（就是不同通道的差距有点大，不建议做layer量化）对于softmax来说，使用了简单的Log-Int-Softmax（LIS）去量化，简单来说就是不使用minmax，而是使用log

这样可以使得接近0的值，也可以被分配多个bit

Power-of-Two Factor for LayerNorm Quantization

首先BN与LN是不同的，BN可以很好的融到卷积里，而LN是不可以的，因为LN是不同的特征图之间的归一化，所以没法融（具体画图可得）

所以作者就提出了PTF（感觉与通道级的量化基本一致）就是先用正常方式来计算一个全局的scale，然后为每个通道寻找一个shift，使得当前channel的量化前后误差最小

相对于channel级来说，在运算的时候仍然是bit的为移动

并不会带来很高的计算负担，同时也可以根据他算均值

Log-Int-Softmax for Softmax Quantization：

作者就是发现softmax之后大部分都是接近0，只有小部分接近1.因此采用liog2量化的方法可以防止接近0的值最终变成一个值，经过了softmax之后的attention map数据范围是[0,1]，会集中在靠近0的较小值部分，靠近1的较大值数量很少，看起来很离散点一样。如对于ViT-L，98.8%的值小于1/16，如果用4bit均匀量化的话，这一块只有一个bin区间，而Log2的量化会分配12个bin，且Log2量化也能满足Ranking-aware的排序一致性