SmoothQuant: Accurate and Efficient Post-Training Quantization for Large Language Models

HanZee

于 2023-09-03 21:32:40 发布

阅读量528

点赞数

文章标签：语言模型人工智能自然语言处理

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_18555105/article/details/132655640

版权

SmoothQuant: Accurate and Efficient Post-Training Quantization for Large Language Models

Introduction
Method
实验
参考

Introduction

在这里插入图片描述
量化是指把一个位宽为fp16的连续型的数值映射到int8的离散型数值，如上图。

当前激活值比量化权重更苦难，当在训练好一个模型后，权重是通过一个随机、Xavier、Kaiming初始化等方法初始化的，均值方差比较稳定，经过权重更新后，分布也不会发生很大变化。

但是激活值的分布是十分不稳定，由于噪声当前是不可避免的，有人发现一个token的每一个维度的分布可能差距很大，但是一个维度内部的分布相对来说是稳定。如下图：
在这里插入图片描述

Method

为了量化激活值，首先要解决分布不稳定的问题，作者的办法是找出为权重与激活值每一个维度数值最大的绝对值，形成一个新的矩阵，｜x｜和|w|，然后执行下图的公式计算得到一个平滑矩阵s。
在这里插入图片描述
得到平滑矩阵后，为了保持结果不变，以前前向计算为x * w，现在为x * s * w/s，如下图，这样就可以达到一个平滑激活值分布的作用。

实验

请添加图片描述

参考

https://arxiv.org/pdf/2211.10438.pdf

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

HanZee 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。