（ECCV 2024）即插即用小波变换卷积，引入频域信息，涨点起飞

最新推荐文章于 2025-03-12 10:00:00 发布

Angelina_Jolie

最新推荐文章于 2025-03-12 10:00:00 发布

阅读量3.3k

点赞数 15

分类专栏：即插即用模块文章标签：计算机视觉

本文链接：https://blog.csdn.net/Angelina_Jolie/article/details/143475450

版权

题目：Wavelet Convolutions for Large Receptive Fields

论文地址：https://arxiv.org/pdf/2407.05848

创新点

引入WTConv层：提出了一种新的卷积层WTConv，通过结合小波变换扩展感受野，使CNN能够在不显著增加参数的情况下获得接近全局的感受野。
多频率响应：WTConv层利用小波分解将输入分成不同频带，允许卷积层在低频和高频分量上分别进行处理，增强了模型对低频成分（即形状特征）的响应。
低参数增长率：与传统方法中卷积核尺寸增大导致参数和计算量指数级增长不同，WTConv实现了参数的对数增长，使得在大感受野的情况下保持参数效率。
即插即用性：WTConv被设计为可以直接替换现有CNN中的深度卷积操作，无需对架构进行额外修改，具有广泛适用性。
增强鲁棒性与形状偏向：实验结果表明，WTConv能够提升CNN在图像分类、语义分割和目标检测等任务中的性能，并对图像腐蚀有更好的鲁棒性，同时提高了模型的形状偏向性。

方法

整体结构

论文提出的WTConv层通过小波分解输入图像，将其分解为不同频率成分，在各频率上进行小卷积核操作，然后使用逆小波重构，形成增强的输出。这种设计允许WTConv层在CNN中替代深度卷积操作，不仅能扩大感受野，还能显著增强模型对低频信息的响应能力，从而提升图像分类、语义分割等任务的性能，同时保持参数增长的效率。

基础网络架构：WTConv被集成到典型的CNN模型中，例如ConvNeXt和MobileNetV2，用于图像分类和其他下游任务。具体来说，WTConv替换了这些架构中的深度卷积层。
WTConv层的工作流程：
- 小波分解：输入图像首先通过小波变换（如Haar小波）分解为不同频带，产生低频和高频成分。低频部分用于扩大感受野，而高频部分则保留细节。
- 多频卷积操作：在低频和高频分量上应用小卷积核，以覆盖大范围的感受野，确保模型对低频和高频信息都有良好响应。
- 逆小波变换：卷积后的输出通过逆小波变换重建，组合成最终的输出。
多层级处理：WTConv层可以分层级递归进行多级小波分解，逐步扩大感受野，适应不同分辨率的输入。
整体效果：通过这种结构，模型在不显著增加参数的前提下实现了与更大卷积核类似的效果，适用于图像分类、语义分割和目标检测等任务。