SmoothQuant: Accurate and Efficient Post-Training Quantization for Large Language Models

SmoothQuant: Accurate and Efficient Post-Training Quantization for Large Language Models

Introduction

在这里插入图片描述
量化是指把一个位宽为fp16的连续型的数值映射到int8的离散型数值,如上图。

当前激活值比量化权重更苦难,当在训练好一个模型后,权重是通过一个随机、Xavier、Kaiming初始化等方法初始化的,均值方差比较稳定,经过权重更新后,分布也不会发生很大变化。

但是激活值的分布是十分不稳定,由于噪声当前是不可避免的,有人发现一个token的每一个维度的分布可能差距很大,但是一个维度内部的分布相对来说是稳定。如下图:
在这里插入图片描述

Method

为了量化激活值,首先要解决分布不稳定的问题,作者的办法是找出为权重与激活值每一个维度数值最大的绝对值,形成一个新的矩阵,|x|和|w|,然后执行下图的公式计算得到一个平滑矩阵s。
在这里插入图片描述
得到平滑矩阵后,为了保持结果不变,以前前向计算为x * w,现在为x * s * w/s,如下图,这样就可以达到一个平滑激活值分布的作用。
在这里插入图片描述

实验

请添加图片描述

参考

https://arxiv.org/pdf/2211.10438.pdf

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

HanZee

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值