发现自己看完paper,总是很快就会被大脑删档,特此进行专栏记录,希望能够持续更新---
Quantization
Robust Quantization: One Model to Rule Them All paper code **
针对于目前的qat等方法所得到的模型对于不同的量化参数设置太敏感的问题,提出训练一个足够robust的模型,能够普适地用于不同场景下的不同量化超参。文中证明了uniform的权重分布相比于一般的normal的权重分布更加robust更加抗噪,提出通过引入 KURE(KUrtosis REgularization) 的loss,能够使得网络参数向着uniform distribution的方向学习,从而获得更加robust的模型。实验证明对于PTQ和QAT都极大提高了鲁棒性,但在最高精度上并不占优。
Fully Quantized Network for Object Detection. paper *
本文主要研究方向是全量化的检测模型,主要针对目前的有些量化方法未考虑网络中所有层的量化操作而导致的精度和速度方面的影响,以及目前检测任务在较大压缩比(4bit)时的不稳定和不收敛问题。文章通过监测4bit 量化后ft过程中w/a的数据分布,发现不稳定问题主要是来源于BN等层的影响,和部分aactivation中的离散值影响,以及layer-wise量化对不同channel的不友好。因此提出了一些改进方法,例如在ft中冻结BN的参数,对activation进行normalize,丢弃异常值,channel-wise量化等操作。文章整体更像是工程改进,但对于数据分布的分析及结论还是比较有意义的。
Differentiable Soft Quantization: Bridging Full-Precision and Low-Bit Neural Networks