WTConv:大感受野的小波卷积

摘要:近年来,人们尝试增加卷积神经网络(CNN)的内核大小,以模仿视觉变换器(ViT)自注意力块的全局感受野。然而,这种方法在实现全局感受野之前很快就达到了上限并饱和。在这项工作中,我们证明,通过利用小波变换(WT),实际上可以获得非常大的感受野,而不会受到过度参数化的影响,例如,对于 k\times k 感受野,可训练参数的数量在所提出的方法中,仅随 k 呈对数增长。所提出的层名为 WTConv,可以用作现有架构中的直接替代品,产生有效的多频响应,并随着感受野的大小进行优雅的缩放。我们展示了 ConvNeXt 和 MobileNetV2 架构中用于图像分类的 WTConv 层以及下游任务骨干网的有效性,并展示了它产生的附加属性,例如对图像损坏的鲁棒性以及对纹理上形状的增强响应。

关键词:小波变换,感受野,多频

论文地址:https://arxiv.org/abs/2407.05848
代码地址:https://github.com/BGU-CS-VIL/WTConv?tab=readme-ov-file


        在过去的十年中,卷积神经网络(CNN)在很大程度上主导了计算机视觉的许多领域。尽管如此,随着最近出现的视觉变换器(ViTs),CNN面临着激烈的竞争。具体来说,现在人们认为ViT相对于CNN的优势主要归因于它们的多头自注意力层。该层有利于特征的全局混合,而卷积在构造上受限于特征的局部混合。结合以往的研究,原文提出一个问题:我们能否利用信号处理工具来有效地增加卷积的感受野,而不会受到过度参数化的影响?换句话说,我们可以拥有非常大的过滤器(例如,具有全局感受野)并且仍然可以提高性能吗?文中对这个问题给出了肯定的答案。原文提出的方法利用小波变换(Wavelet Transform, WT)来使卷积感受野很好地放大,并通过级联引导CNN更好地响应低频。在某种程度上,原文将解决方案基于小波变换(与傅里叶变换等不同)的动机是它保留了一些空间分辨率。这使得小波域中的空间运算(例如卷积)更有意义。

小波卷积        

        文中提出了WTConv,该层使用联级WT分解并执行一组小核卷积,每个卷积都专注于越来越大的感受野中输入的不同频段。这个过程使我们能够更加重视输入中的低频,同时仅添加少量可训练参数,事实上,对于 k\times k 感受野,我们的可训练参数数量仅随 k 呈对数增长。这一事实与一些相关增长呈二次方的最新方法相反,使我们能够获得具有前所未有的有效感受野大小的有效CNN。接下来,我们首先描述如何使用卷积执行小波变换,然后提出在小波域中执行卷积的解决方案(即WTConv的具体操作),最后描述了WTConv的理论优势并分析了其计算成本。

一、理论基础:将小波变换作为卷积

        文中采用Haar WT,因为它高效且简单。给定图像X,一个空间维度(宽度或高度)上的单极Haar WT由深度卷积给出,其内核为[1,1]/\sqrt{2}[1,-1]/\sqrt{2}通过因子2的标准下采样算子。为了执行2D Haar WT,我们在两个维度上组合操作,使用以下四个滤波器产生步幅为2的深度卷积:

$f_{LL}=\frac{1}{2}\begin{bmatrix}1&1\\1&1\end{bmatrix},f_{LH}=\frac{1}{2}\begin{bmatrix}1&-1\\1&-1\end{bmatrix},f_{HL}=\frac{1}{2}\begin{bmatrix}1&1\\-1&-1\end{bmatrix},f_{HH}=\frac{1}{2}\begin{bmatrix}1&-1\\-1&1\end{bmatrix}.$  

注意,f_{LL}是低通滤波器,f_{LH}f_{HL}f_{HH}是一组高通滤波器。对于每个输入通道,卷积的输出

  • 26
    点赞
  • 19
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值