模型量化论文阅读#4----EWGS:Network Quantization with Element-wise Gradient Scaling

最新推荐文章于 2025-03-18 21:47:11 发布

羊藤枝

最新推荐文章于 2025-03-18 21:47:11 发布

阅读量1.3k

点赞数 1

分类专栏：模型量化深度学习文章标签：深度学习模型量化

本文链接：https://blog.csdn.net/qq_30614451/article/details/118340103

版权

本文介绍了针对STE缺点的元素级梯度缩放（EWGS）算法，用于深度学习模型量化。EWGS在反向传播中自适应地放大或缩小梯度元素，以更精确地处理量化函数的不可微问题。通过归一化、截断、量化操作，以及使用尺缩因子δ调整梯度，EWGS提高了量化网络的训练效果。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

在量化中，因为量化函数是不可微分的，所以一旦涉及到量化函数的反向传播时，就需要对量化函数的梯度进行近似，目前常用的近似是STE，从而避免量化函数的零梯度问题。所谓STE就是一个直通器，它只是传播相同的梯度而不考虑量化函数的输入和输出之间的离散误差。这篇论文就针对STE的缺点提出了一种元素级的梯度放缩算法，叫做EWGS。给定量化函数量化输出的梯度，EWGS自适应地放大或缩小每个梯度元素，并使用缩放后的梯度作为量化函数输入的梯度，通过反向传播来训练量化的网络。缩放是根据每个梯度元素的符号和量化函数的连续输入和离散输出之间的误差进行的。