AWQ量化(Activation-aware Weight Quantization)

smartcat2010

已于 2024-11-06 08:40:43 修改

阅读量1.1k

点赞数 10

分类专栏： LLM推理优化文章标签：计算框架

于 2024-09-08 18:14:33 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/smartcat2010/article/details/142030399

版权

论文：

AWQ: Activation-aware Weight Quantization for On-Device LLM Compression and Acceleration

中文解读：

深入理解AWQ量化技术 - 知乎 (zhihu.com)

动机：端侧设备用LLM，为了减少显存占用量，所以要用INT4量化；

实现：只量化W矩阵，存储INT4；计算的时候再反量化为FP16（TensorRT-LLM反量化为FP8)，进行计算；

原理：1. 哪些w的量化误差，会导致最终误差较大？答：和这些w相乘的那些activation，绝对值大的；所以，选取activation矩阵中，绝对值较大的channels，和这些相乘的w行；2. 怎么缩小这些行的量化误差？答：量化误差，是由round取整带来的，只要把w先扩大一些，再进行

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。