基于LLM.int8()的分析,随着语言大模型参数规模增大,激活中的异常值(Outlier)占比会显著上升,导致激活值量化误差增大。详见如下文章:
https://blog.csdn.net/nature553863/article/details/128177323
SmoothQuant通过Activation与Weight数值分布的等价均衡变换,能够显著改善语言大模型的激活量化效果:
Paper地址:https://arxiv.org/abs/2211.10438
GitHub链接: