论文:
AWQ: Activation-aware Weight Quantization for On-Device LLM Compression and Acceleration
中文解读:
动机:端侧设备用LLM,为了减少显存占用量,所以要用INT4量化;
实现:只量化W矩阵,存储INT4;计算的时候再反量化为FP16(TensorRT-LLM反量化为FP8),进行计算;
原理:1. 哪些w的量化误差,会导致最终误差较大?答:和这些w相乘的那些activation,绝对值大的;所以,选取activation矩阵中,绝对值较大的channels,和这些相乘的w行;2. 怎么缩小这些行的量化误差?答:量化误差,是由round取整带来的,只要把w先扩大一些,再进行
AWQ量化(Activation-aware Weight Quantization)
于 2024-09-08 18:14:33 首次发布