前序
GPTQ在量化大模型上取得了巨大的成功,模型部署者而言GPTQ有着一个天然的缺陷 – 校准数据集的过分使用:
其一,量化后模型的领域能力无法同时保持到原有模型的相同水准,不同类型的校准任务无法同时满足,无法同时胜任数学,改写,代码内容的校准。所以目前GPTQ在高产能AIGC的应用寥寥无几。
其二,校准数据过拟合的现象容易发生,过拟合的型仅仅具备校准数据能力。其中的原因是相较于机器学习模型的梯度训练方式,GPTQ方法更类似预测哪些模型权重对当前校准数据影响比较薄弱,从而做出的量化或剪枝行为。不存在类似机器学习模型方法避免过拟合。
综上,大模型PTQ方法倘若摆脱校准数据的依赖,才能在广泛的场景运用和提高效果。于此诞生AWQ(Activation-Aware Weight Quantization)
AWQ
权重不同等重要,保留少数重要的权重,忽视其他权重足以实现量化。提取重要点:AWQ提出激活值判断保留重要的权重。加重重要点:通过输入和权重计算得到的激活值分布,重要的权重后的激活值相对大。随后将重要权重的尺度放大,强化,进一步提高这部分权重的重要性。AWQ几乎不使用校准数据,在量化模型的泛化,多模态等领域取得了显著的改善。
如上图所示,AWQ的量化过程可以分解为从全部权重,到量化权重(提取重要点),最后到放缩量化权重超参数(加重重要点)。