题目:Wavelet Convolutions for Large Receptive Fields
论文地址:https://arxiv.org/pdf/2407.05848
创新点
-
引入WTConv层:提出了一种新的卷积层WTConv,通过结合小波变换扩展感受野,使CNN能够在不显著增加参数的情况下获得接近全局的感受野。
-
多频率响应:WTConv层利用小波分解将输入分成不同频带,允许卷积层在低频和高频分量上分别进行处理,增强了模型对低频成分(即形状特征)的响应。
-
低参数增长率:与传统方法中卷积核尺寸增大导致参数和计算量指数级增长不同,WTConv实现了参数的对数增长,使得在大感受野的情况下保持参数效率。
-
即插即用性:WTConv被设计为可以直接替换现有CNN中的深度卷积操作,无需对架构进行额外修改,具有广泛适用性。
-
增强鲁棒性与形状偏向:实验结果表明,WTConv能够提升CNN在图像分类、语义分割和目标检测等任务中的性能,并对图像腐蚀有更好的鲁棒性,同时提高了模型的形状偏向性。
方法
整体结构
论文提出的WTConv层通过小波分解输入图像,将其分解为不同频率成分,在各频率上进行小卷积核操作,然后使用逆小波重构,形成增强的输出。这种设计允许WTConv层在CNN中替代深度卷积操作,不仅能扩大感受野,还能显著增强模型对低频信息的响应能力,从而提升图像分类、语义分割等任务的性能,同时保持参数增长的效率。
-
基础网络架构:WTConv被集成到典型的CNN模型中,例如ConvNeXt和MobileNetV2,用于图像分类和其他下游任务。具体来说,WTConv替换了这些架构中的深度卷积层。
-
WTConv层的工作流程:
-
小波分解:输入图像首先通过小波变换(如Haar小波)分解为不同频带,产生低频和高频成分。低频部分用于扩大感受野,而高频部分则保留细节。
-
多频卷积操作:在低频和高频分量上应用小卷积核,以覆盖大范围的感受野,确保模型对低频和高频信息都有良好响应。
-
逆小波变换:卷积后的输出通过逆小波变换重建,组合成最终的输出。
-
-
多层级处理:WTConv层可以分层级递归进行多级小波分解,逐步扩大感受野,适应不同分辨率的输入。
-
整体效果:通过这种结构,模型在不显著增加参数的前提下实现了与更大卷积核类似的效果,适用于图像分类、语义分割和目标检测等任务。
即插即用模块作用
WT