VIT quantization相关论文阅读

1. Q-ViT: Fully Differentiable Quantization for Vision Transformer*

        本文主要是借鉴LSQ,对于quantization scales 和bit-widths都进行训练,同时对于两者的联合优化问题,提出了一种switchable scale的方法。经过作者实验,模块中的GELU对于量化是非常敏感的,需要高bit的量化,因此混合量化,同时不同的head,对于量化的敏感度也是不同的,因此提出了一种head wise级别的量化方法去学习不同的量化位宽

         具体方法:

        对于量化位宽b来说,离散的,作者采用阶段的思想来做:

         所以b波浪就是可以训练的,采用ste直通的方法。

        但是这样会存在两个方面的缺点:1.没有考虑到VIT独特的结构 2:两者联合训练会导致不稳定不容易收敛。所以作者提出head-wise bit-width 和 switchable scale两种方法。

Head-wise Bit-width: 

         说白了就是channel 量化,因为在vit中,每个head都是独立计算的,因此完全可以采用不同的b

Switchable Scale:

         假设xmax-xmin是固定的,那么α的最优解与b就是指数相关的,这在联合训练过程中是非常不稳定的。所以作者采用switchable batch normalization的灵感,

         这里其实我看论文并没有很理解,之后会去读一下代码,跑一跑试试,看图来说,就是采用动态神经网络的思想,比如3.7就选择4这样。

        然后,在训练的时候添加上了复杂度约束BitOPs,来尽可能降低b位宽

2. Post-Training Quantization for Vision Transformer

        PTQ用在vit上的开山之作(应该是)首先,就说VIT的特殊之处在于self-attention结构,可以计算全局的特征相似性,非常重要作者从实验中发现量化会改变attention map的相对次序,这个会造成很大的精度损失,所以提出了一种ranking loss来解决这个问题

         这个公式比较难理解,需要仔细推一推transformer中的前向推理过程

         这个公式是,色他-m如果小于0,那么就输出0,如果大于0就是输出色i他-m。

         A就是attention计算出来的。所以ranking loss是什么意思,就是说不同的图像块之间,相差越大越好,相差越大证明m越大,那么loss就是0。具体可画出Q和K计算的图,发现是个矩阵,每一行是第一个图片块向其他的他的块求注意力。

        然后,就是最基本的重建误差最小,但是这里用的是什么系数,越大证明两者越相似。

         所以最终的优化损失函数如下:

         这里优化的方式是首先固定输入的interval,调整weight的interval进行优化,然后反过来固定weight的interval,调整输入的interval来进行优化,上面两步循环进行,直到loss收敛,或者达到最大迭代步数,weight和activation都是minmax初始化。

        同时借鉴了DFQ论文中的bias correletion的方法,

         将量化误差吸收

        最后是混合精度量化:

Nuclear Norm Based Mixed-Precision Quantization

        也就是谁对量化敏感,谁就分的位宽高一点。这里采用svd分解,奇异值分解得到的奇异值的和就是矩阵的核范数,可以表述这个矩阵的数据相关性,本文用这个核范数来表征量化的敏感程度,用来作为混合精度Bit-width设置的依据.主要思想:根据bit-width变化造成的二阶扰动来对不同bit-width配置进行排序,排序的指标如下:给定一个目标的model size,根据上述的指标对不同bit-width配置进行排序,然后选取最小扰动的配置

         最后是整体流程图:

 3. PTQ4ViT: Post-Training Quantization for Vision Transformers with Twin Uniform Quantization

        这篇论文首先是发现在激活经过softmax和GELU之后的分布并不是高斯分布,分布非常极端,也就是

  • softmax之后的分布是[0,1]之间的不均匀分布,大部分数值靠近0,其余非常少;
  • GELU函数之后的分布具有不对称性,正数部分范围大负数部分范围小;

 所以作者采用了通俗点说就是两个scale。

另一个方面,作者观察到像以往的方法,使用MSE或者cosine距离, Person相关系数来确定scale的选取范围并不准确,因为都是利用的局部信息;所以作者就使用了海森矩阵来指导。

        除了第一层和最后一层没有进行量化之外,其余层的输入和权重都进行了量化,还包括self-attention层的两个输入矩阵,对于不同的head采用不同的scale,有点类似于per-channel的意思

        整体流程如下:

         具体流程:

        首先base 量化:

         先优化一个冻住,再优化另一个。

Twin Uniform Quantization

         针对于前面说到的问题,可以看到,采用了两种scale

         对于softmax来说,也就是说R1对应的是小的,采用2k-1量化,优化R1,同时为了方便计算,

         这样在前向推理时,两个模块加在一起也是移位的运算,前向推理的时候根据最高位来判断使用哪个scale,对于GELU,符号位即可区分,对于softmax,最高位是0表示前一半,最高位是1表示是后一半。

Hessian Guided Metric:

        这其实就是直接用了BRECQ论文的layer-wise重建方法

         

最后算法整体流程:

4. FQ-ViT: Post-Training Quantization for Fully Quantized Vision Transformer

        这篇文章可以认为是上面那篇Post-Training Quantization for Vision Transformer的补充,就是对这篇论文中没有量化的softmax和Layer norm进行量化。对于Layer norm来说,,作者发现了输入的严重通道内的反应(就是不同通道的差距有点大,不建议做layer量化)对于softmax来说,使用了简单的Log-Int-Softmax(LIS)去量化,简单来说就是不使用minmax,而是使用log

         这样可以使得接近0的值,也可以被分配多个bit

Power-of-Two Factor for LayerNorm Quantization

        首先BN与LN是不同的,BN可以很好的融到卷积里,而LN是不可以的,因为LN是不同的特征图之间的归一化,所以没法融(具体画图可得)

        所以作者就提出了PTF(感觉与通道级的量化基本一致)就是先用正常方式来计算一个全局的scale,然后为每个通道寻找一个shift,使得当前channel的量化前后误差最小

        

         相对于channel级来说,在运算的时候仍然是bit的为移动

并不会带来很高的计算负担,同时也可以根据他算均值

Log-Int-Softmax for Softmax Quantization:

        作者就是发现softmax之后大部分都是接近0,只有小部分接近1.因此采用liog2量化的方法可以防止接近0的值最终变成一个值,经过了softmax之后的attention map数据范围是[0,1],会集中在靠近0的较小值部分,靠近1的较大值数量很少,看起来很离散点一样。如对于ViT-L,98.8%的值小于1/16,如果用4bit均匀量化的话,这一块只有一个bin区间,而Log2的量化会分配12个bin,且Log2量化也能满足Ranking-aware的排序一致性

         同时这么做使得量化与数据无关,并且可以将atten之后乘V的计算变成bit位移,一是softmax出来的结果区间是[0,1],不需要校准;二是Log2量化可以将乘法转化为移位

         同时参考I Bert那篇文章,整型前向推理

 

  • 1
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值