[翻译] Log2 量化

氵文大师

已于 2024-01-11 19:46:03 修改

阅读量393

点赞数

文章标签：量化

于 2024-01-11 19:43:39 首次发布

原文链接：https://blog.csdn.net/HaoZiHuang/article/details/135536904

版权

RepQ-ViT 中提到了 $l o g 2$ 量化和 $\sqrt{2}$ 量化，找来看下公式

1. FQ-ViT 部分

Log2 量化公式翻译自:

Fq-vit: Post-training quantization for fully quantized vision transformer

介绍模型量化基本概念. 假定量化位宽 $b$ , 量化器 $\textrm{Q}(\textrm{X}|b)$ 能被形式化一个函数, 能将一个浮点数 $\textrm{X}\in \mathbb{R}$ 映射为最近的 quantization bin:

(quantization bin 我自己一般翻译为量化值, 诸君自己看怎么翻译)
$\begin{equation} \textrm{Q}(\textrm{X}|b): \mathbb{R} \rightarrow \textrm{q}, \end{equation}$
$\begin{equation} \textrm{q}= \left\{\begin{aligned} & \{-\textrm{2}^{b-1},\cdots ,\textrm{2}^{b-1}-\textrm{1}\} & Signed, \\ & \{\textrm{0}, \textrm{1} \cdots ,\textrm{2}^{b}-\textrm{1}\} & Unsigned. \end{aligned}\right. \end{equation}$
已有的文献存在许多量化器 $\textrm{Q}(\textrm{X}|b)$ , 比如均匀量化¹和 log2量化²

均匀量化量化器 $\textrm{Q}(\textrm{X}|b)$ 定义为:
$\begin{equation} \textrm{Q}(\textrm{X}|b)=\operatorname{clip}(\lfloor\frac{\textrm{X}}{s}\rceil+zp, \textrm{0}, \textrm{2}^{b}-\textrm{1}), \end{equation}$
其中 $s$ ~(scale, 量化缩放系数) 和 $z p$ ~(zero-point, 量化零点) 由 $\textrm{X}$ 的上下界 $l$ 和 $u$ 决定, 通常是其最大最小值:

$\begin{align} l= & \min(\textrm{X}), u=\max(\textrm{X}), \\ s= & \frac{u-l}{\textrm{2}^b-\textrm{1}},zp=\operatorname{clip}(\lfloor-\frac{l}{s}\rceil, \textrm{0}, \textrm{2}^{b}-\textrm{1}). \end{align}$

Log2 量化将量化过程从线性转换为指数.
量化器 $\textrm{Q}(\textrm{X}|b)$ 定义为:
$\begin{equation} \textrm{Q}(\textrm{X}|b)=\operatorname{sign}(\textrm{X})\cdot \operatorname{clip}(\lfloor -\log_\textrm{2}\frac{|\textrm{X}|}{\max(|\textrm{X}|)}\rceil, \textrm{0},\textrm{2}^{b-1}-\textrm{1}). \end{equation}$

在本文中, 为了实现完全量化的视觉变压器, 我们量化了所有模块, 包括Conv、Linear、MatMul、LayerNorm、Softmax等

2. RepQ-ViT 部分

均匀量化器是硬件支持良好的最流行的选择之一，其定义如下：
$\begin{align} \text{Quant} & : \bm{x}^{(\mathbb{Z})} = \text{clip}\left(\left\lfloor \frac{\bm{x}}{s} \right\rceil+z, 0, 2^b-1 \right) \\ \text{DeQuant} & : \hat{\bm{x}} = s\left(\bm{x}^{(\mathbb{Z})}-z\right) \approx \bm{x} \end{align}$
其中 $\bm{x}$ 和 $\bm{x}^{(\mathbb{Z})}$ 分别是浮点和量化值， $\left\lfloor\cdot\right\rceil$ 表示四舍五入函数， $\in \mathbb{N}$ 是量化位宽。

反量化值 $\hat{\bm{x}}$ 近似地恢复了 $\bm{x}$ 。

重要的是， $s\in \mathbb{R}^+$ 是量化缩放比， $\in \mathbb{Z}$ 是零点，两者由 $\bm{x}$ 的下限和上限确定，如下所示：

$\begin{equation} s = \frac{\max(\bm{x})-\min(\bm{x})}{2^b-1}, \quad z = \left\lfloor-\frac{\min(\bm{x})}{s} \right\rceil \end{equation}$

$l o g 2$ 量化器是另一种常见且面向硬件的选择。由于它仅在本文中应用于后Softmax激活，我们只考虑正值的量化，如下所示：
$\begin{align} \text{Quant} & : \bm{x}^{(\mathbb{Z})} = \text{clip}\left(\left\lfloor -\log_2 \frac{\bm{x}}{s} \right\rceil, 0, 2^b-1 \right) \\ \text{DeQuant} & : \hat{\bm{x}} = s\cdot 2^{-\bm{x}^{(\mathbb{Z})}} \approx \bm{x} \end{align}$
其中log2函数和基于2的幂函数都可以使用快速而高效的位移操作来实现³⁴

Quantization and training of neural networks for efficient integer-arithmetic-only inference ↩︎
A deep look into logarithmic quantization of model parameters in neural networks ↩︎
Lognet: Energy-efficient neural networks using logarithmic computation ↩︎
Fq-vit: Post-training quantization for fully quantized vision transformer ↩︎