【论文速递】QARepVGG:一种量化感知方案让RepVGG再次伟大

文章探讨了RepVGG模型在量化过程中的性能下降问题,提出了QARepVGG,一种量化友好的结构重参数化方法,显著减小了INT8推理时的精度损失,使得模型在保持高效推理的同时,量化后精度下降不超过2%。
摘要由CSDN通过智能技术生成

【论文速递】QARepVGG:一种量化感知方案让RepVGG再次伟大

【论文原文】:Make RepVGG Greater Again: A Quantization-aware Approach

作者信息】:Xiangxiang Chu Liang Li Bo Zhang

获取地址:https://arxiv.org/abs/2212.01593

博主关键词: 量化感知,结构重参数

推荐相关论文:

CVPR2022 - RepVGG: Making VGG-style ConvNets Great Again
- 论文地址:https://arxiv.org/pdf/2101.03697.pdf
- GitHub地址:https://github.com/megvii-model/RepVGG

摘要:

性能和推理速度之间的权衡对于实际应用是至关重要的。结构重参数化实现了更好的权衡,它正成为现代卷积神经网络中日益流行的组成部分。但是当需要INT8推理时,结构重参数化方法的量化性能通常太差,无法部署(例如,在ImageNet上top-1的精度下降超过20%)。在本文中,我们深入研究了这种量化掉点问题的潜在机制,其中原有模块的设计不可避免地扩大了量化误差。我们提出了一个简单、稳健和有效的补救方法,以具有量化友好的结构,也具有重参数化的好处。我们的方法极大地弥补了RepVGG的INT8和FP32精度之间的差距。不加任何trick,通过标准的训练后量化,ImageNet的最高精度下降降低到2%以内。

关键词 量化感知,结构重参数

简介:

尽管深度神经网络在视觉[4, 12, 17, 19, 35]、语言[6, 40]和语音[13]方面取得了巨大成功,但模型压缩已成为迫切需要的问题,特别是考虑到数据中心功耗的急剧增长和全球资源受限的边缘设备数量的大幅增加。网络量化[14, 15]是最有效的方法之一,因为它具有较低的内存成本和固有的整数计算优势。
然而,在神经架构设计中,量化感知并不是首要任务,因此在很大程度上被忽视。然而,如果量化是最终部署的必要操作,这可能会带来负面影响。例如,许多著名的架构存在量化崩溃问题,如MobileNet [20, 21, 36]和EfficientNet [38],这需要解决设计或采用高级量化方案,如[26, 37, 45]和[2, 16]。
最近,神经架构设计中最具影响力的方向之一是重参数化[8, 11, 46]。其中,RepVGG [11] 在训练期间将标准的Conv-BN-ReLU重新设计为其相同的多分支结构,这带来了强大的性能提升,同时在推理过程中不会增加任何额外的成本。由于其简单性和推理优势,它受到许多最近的视觉任务的青睐[10, 22, 28, 39, 41, 44]。然而,基于重参数化的模型面临着众所周知的量化困难,这是一种固有的缺陷,阻碍了行业应用。结果表明,使这种结构合适地量化并不是易事。一个标准的训练后量化方案将RepVGG-A0的准确性从72.4%大大降低到了52.2%。与此同时,采用量化感知训练[7]也并非易事。
在这里,我们特别关注RepVGG [11]的量化困难。为了解决这个问题,我们探索了基础的量化原则,通过深入分析典型的重参数化架构来指导我们。也就是说,为了使网络具有更好的量化性能,权重的分布以及任意分布的处理数据都应该是“量化友好”的。这两者对确保更好的量化性能都至关重要。更重要的是,这些原则引导我们设计了一个全新的架构,我们称之为QARepVGG(即Quantization-Aware RepVGG,量化感知repvgg),它不会遭受严重的量化崩溃,其构建块如图1所示,其量化性能得到了大幅提升。

在这里插入图片描述

Fig. 1. Reparameterization of QARepVGG block compared with RepVGG block. Both can be identically fused into a single Conv 3 × 3 but QARepVGG is quantization-friendly to have 70.4% after PTQ while RepVGG drops to 52.2% [7].

综上所述,主要贡献总结如下:
1.揭示重参数化架构(例如RepVGG [11])量化中性能崩溃的根本原因。
2.构思一个量化友好的RepVGG替代方案(即QARepVGG),在权重和激活分布方面具有根本性差异,同时保持出色的速度和性能平衡的优势。
3.我们提出的方法在不同的模型规模和各种视觉任务上具有很好的泛化性,实现了杰出的量化后性能,可以直接部署。此外,我们的模型在FP32精度方面可与RepVGG相媲美

可以预见,我们的方法将极大地提升量化性能,而在推理过程中不会增加额外的成本,弥合重新参数化网络部署中的最后一公里的差距。我们将发布代码以便于复现和未来研究。

【论文速递 | 精选】

论坛地址:https://bbs.csdn.net/forums/paper
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值