AI大模型的神经网络模型量化技术:INT8 还是 INT4 ?
如果要量化的目的是实现硬件加速,则应首选确定性量化,因为可以预先指定适当的量化级别,以便在专用硬件上运行量化网络,对硬件的性能预期得到改善。QAT量化方法在付出重新训练的代价后,采用INT4的量化模型应用场合会较大,但稳定性还是需要大量的实验验证,尤其是安全性要求很高的自动驾驶领域,大家不得不慎重考虑。但是,DNN模型的每一层对准确性都有不同的影响,因此可以使用细粒度的混合精度量化方法,其中每层权重和激活值的位宽不同。而随机性量化,其权重、激活值或梯度是离散分布的,而量化值是从这些离散分布中采样而来。
复制链接