CVPR 2024 | 轻松涨点！北理提出频率自适应空洞卷积

最新推荐文章于 2025-04-01 22:40:34 发布

PaperWeekly

最新推荐文章于 2025-04-01 22:40:34 发布

阅读量3.2k

点赞数 3

原文链接：https://mp.weixin.qq.com/s?__biz=MzIwMTc4ODE0Mw==&mid=2247685821&idx=3&sn=57fce016b81e68abf72d2b135628312b&chksm=97237ce9d5623f61970d87ff0802b95a018c1377694d3e887961188362ef691be4132f837c89&scene=126&sessionid=0

版权

©PaperWeekly 原创 · 作者 | 知凡

单位 | 北京理工大学

研究方向 | 图像检测分割

扩张卷积通过在连续元素之间插入间隙来扩展感受野，广泛应用于计算机视觉中。在本研究中，我们从谱分析的角度提出了三种策略来改进扩张卷积的各个阶段。与固定全局扩张率作为超参数的传统做法不同，我们引入了频率自适应扩张卷积（FADC），它根据局部频率分量动态调整空间扩张率。

随后，我们设计了两个插件模块来直接增强有效带宽和感受野大小。自适应内核（AdaKern）模块将卷积权重分解为低频和高频分量，并在每个通道的基础上动态调整这些分量之间的比率。通过增加卷积权重的高频部分，AdaKern 捕获更多的高频分量，从而提高有效带宽。

频率选择（FreqSelect）模块通过空间变异重新加权，以最佳方式平衡特征表示中的高频和低频分量。它抑制背景中的高频，以鼓励 FADC 学习更大的扩张，从而增加扩大范围的感受野。关于分割和对象检测的大量实验一致验证了我们方法的有效性。

论文标题：

Frequency-Adaptive Dilated Convolution For Semantic Segmentation

论文链接：

https://openaccess.thecvf.com/content/CVPR2024/papers/Chen_Frequency-Adaptive_Dilated_Convolution_for_Semantic_Segmentation_CVPR_2024_paper.pdf

代码链接：

https://github.com/Linwei-Chen/FADC

引言

扩张卷积以扩张率 (D) 在滤波器值之间插入间隙，以扩大感受野，而不会显着增加计算负载。该技术广泛应用于计算机视觉任务，例如语义分割和对象检测。

虽然较大的扩张率有效扩大感受野大小，但它是以高频分量响应为代价的。将扩张率从 1 增加到 D 相当于通过零插入将卷积核扩张了 D 倍。根据傅立叶变换的缩放特性，频率响应曲线和卷积核的带宽都将缩放到。

如图 1 所示，时红色曲线的带宽仅为时蓝色曲线的四分之一。带宽的减少极大地限制了该层处理高频分量的能力。例如，当特征图的频率内容高于扩张卷积的采样率时，就会出现网格伪影。

在这里，我们引入频率自适应扩张卷积（FADC）来通过频谱分析的角度增强扩张卷积。如图 2 所示，FADC 包括三个关键策略，即自适应扩张率（AdaDR）、自适应内核（AdaKern）和频率选择（FreqSelect），旨在增强普通扩张卷积的各个阶段。AdaDR 在空间上调整膨胀率，AdaKern 对卷积核权重进行操作，而 FreqSelect 直接平衡输入特征的频率功率以鼓励感受野的扩展。

与全局固定膨胀率的传统方法不同，我们的 AdaDR 根据频谱动态分配局部膨胀率。例如，在图 1(a) 的图块 1 中，汽车边界表现出大量高频分量（由蓝色实线表示），AdaDR 应用较小的膨胀率 () 和较宽的有效带宽（由蓝点曲线）。

相反，对于图块 2 中的车门，频率功率主要集中在低频域，AdaDR 将膨胀率 D 增加到 4，因为减少的带宽仍然可以包含大量的频率功率。这两个补丁的膨胀图如图 1(d) 所示。与固定膨胀率相比，我们的 AdaDR 将图 1 的理论平均感受野大小从∼440 像素提高到∼1000 像素。

AdaKern 是一个插件模块，可操纵卷积核来优化图 3 中的频率响应曲线并增强有效带宽。如图 3 所示，该模块将卷积权重分解为低频和高频分量。这使我们能够在每个通道的基础上动态地操作这两个组件。例如，增加高频内核的权重（图 2 底部以红色标记）会导致高频分量的响应更强，从而增加有效带宽，如左图所示图 3 中，的曲线。

FreqSelect 在输入扩张卷积之前通过平衡特征中的高频和低频分量来增加感受野大小。由于卷积倾向于放大高频分量，所以扩张卷积后的特征通常表现出更高比例的高频分量。为了捕获这些增加的高频分量，较小的膨胀率 D 将因其较大的有效带宽而受到青睐，但代价是感受野大小受到影响。通过抑制输入特征上的高频功率，我们的 FreqSelect 模块能够增加相应的场大小。

具体来说，如图 2 所示，FreqSelect 将特征图从低到高分解为 4 个频率通道。然后，我们使用选择图对每个通道进行空间重新加权，以平衡频率功率，使 FADC 能够有效地学习更大的感受野。我们在分割方面的实验结果表明，我们提出的方法持续带来了改进，从而验证了我们方法的有效性。

我们的贡献可总结如下：

1. 我们使用频率分析对扩张卷积进行了深入探索，将扩张的分配重新定义为涉及平衡有效带宽和感受野的权衡问题。

2. 我们引入了频率自适应扩张卷积（FADC）。它采用自适应扩张率（AdaDR）、自适应内核（AdaKern）和频率选择（FreqSelect）策略。AdaDR以空间变化的方式动态调整膨胀率，以实现有效带宽和感受野之间的平衡。AdaKern 自适应调整内核以充分利用带宽，FreqSelect 学习频率平衡特征以鼓励较大的感受野。

3. 我们通过分割任务的综合实验来验证我们的方法，不断证明其有效性。此外，所提出的 AdaKern 和 FreqSelect 在与目标检测和分割任务中的可变形卷积和扩张注意力集成时也被证明是有效的。

频率自适应扩张卷积

所提出的 FADC 的概述如图 2 所示。在本节中，我们首先介绍 AdaDR 策略，概述我们如何平衡带宽和感受野。随后，我们深入研究了 AdaKern 和 FreqSelect 策略的细节，这些策略旨在充分利用带宽并促进大的接受域。

3.1 自适应扩张率

扩张卷积。广泛使用的扩张卷积可以表述如下：，其中表示输出特征图中位置处的像素值，K 是内核大小，表示内核的权重参数，表示对应位置处的像素值到输入特征图中 p 偏移。变量表示预定义网格采样的第 i 个位置。通过增加扩张率 D 可以扩大感受野。

频率分析。之前的工作已经观察到，扩张的增加会导致地层捕获频率的降低。具体来说，遵循傅里叶变换的缩放特性，将膨胀率从 1 增加到会将卷积核放大倍。因此，卷积核的响应频率降低为，导致频率响应从高频转移到低频，如图 1 所示。此外，扩张卷积有效地以采样率运行，使其无法捕获高于奈奎斯特频率的频率，即采样率的一半。

具体来说，我们首先使用离散傅里叶变换（DFT）将特征图变换到频域，，可以表示为。

其中表示 DFT 的复数输出数组。和表示其高度和宽度。表示特征图的坐标。高度和宽度维度上的归一化频率由给出和。将低频移至中心后，从集合中取值，的值取自。

因此，大于奈奎斯特频率的高频集合 or 无法准确捕获，限制了其带宽。

自适应扩张率。基于上述分析，扩张率的选择可以被视为大感受野和有效带宽之间的权衡。考虑到输入特征图在空间上是变化的，每个像素的最佳扩张可能不同。因此，我们引入自适应扩张率（AdaDR）策略来实现更好的平衡。它为每个像素分配不同的膨胀率。

可以通过参数为的卷积层来预测。特别是，我们结合了 ReLU 层来确保膨胀的非负性。它的目的是最大化每个像素的感受野并最小化丢失的频率信息。对于以为中心且窗口大小为的局部特征，我们将其称为。其感受野与正相关。

3.2 自适应卷积核

AdaDR 通过为每个像素单独分配膨胀率，实现有效带宽和感受野之间的微妙平衡，共同优化这两个因素。有效带宽与卷积核的权重密切相关，起着关键作用。传统的卷积核学习捕获不同频段的特征，这对于理解复杂的视觉模式至关重要。然而，一旦训练完毕，它们就会变得静止。

为了进一步增强有效带宽，我们将卷积核参数分解为低频和高频分量，然后引入动态加权来调整频率响应。此过程仅增加少量额外参数和计算开销。对于静态卷积核，其权重 W 可以分解如下：

这里，表示逐核平均。它充当低通均值滤波器，后跟由定义的参数的卷积。正如中所讨论的，较高的平均值更有可能衰减高频分量。其中表示残差部分，捕获局部差异并提取高频分量。分解后，我们的 AdaKern 动态调整高频和低频分量，可以大致表示为：

其中，是每个通道的动态权重，这是通过简单且轻量级的方法预测的全局池化 + 卷积层。根据输入上下文动态调整的比率，使网络能够专注于特定频段并适应特征中视觉模式的复杂性。这种动态频率自适应方法增强了网络捕获低频上下文和高频局部细节的能力。这反过来又增加了有效带宽，从而提高了需要跨不同频率提取不同特征的分割任务的性能。

3.3 频率选择

正如先前的研究所示，传统的卷积通常充当高通滤波器。因此，所得到的特征往往表现出较高比例的高频分量。这种倾向导致采用较小的总体膨胀率来保持高有效带宽，不幸的是，这会影响感受野的大小。FreqSelect 旨在通过平衡特征表示中的高频和低频分量来增强感受野。

其中表示快速傅里叶逆变换。是一个二值掩码，旨在提取相应的频率：

这里，来自个预定义频率阈值。随后，FreqSelect 在空间上动态地重新加权不同频带中的频率分量。其公式为：

其中是 FreqSelect 之后学习到的频率平衡特征，表示第个频段的选择图。具体来说，我们以倍频程的方式将频率分解为四个频段，即，，，和。

实验

4.1 实验设置

数据集和指标。我们在几个具有挑战性的语义分割数据集上评估我们的方法，包括 Cityscapes 和 ADE20K。我们使用平均交集（mIoU）进行语义分割，使用平均精度（AP）进行对象检测/实例分割作为我们的评估指标。落实细节。Mask2Former、PIDNet、ResNet/HorNet+UPerNet，我们保持与原始论文相同的设置。

在 COCO 数据集上，我们遵循常见做法并训练 12（1× 计划）或 36（3× 计划）epoch 的对象检测和实例分割模型。在 Dilated-ResNet 的情况下，我们用所提出的 FADC 代替 stage-3∼4 的扩张卷积。对于 PIDNet，瓶颈处的卷积被所提出的 FADC 取代。对于 ResNet，我们用所提出的 FADC 替换第 2∼4 阶段的卷积，而对于 HorNet，我们用所提出的 FADC 替换卷积。

4.2 主要结果

4.3 可视化结果

AdaDR 学习预测高频区域的小膨胀率，例如汽车、自行车和人的边界（参见图 4（c）），以保持高带宽用于捕捉高频精细细节。相反，它为具有较低高频水平的较平滑区域分配较大的扩张率，以扩大感受野。

此外，与可变形卷积相比，AdaDR 避免了图 7 所示的空间偏差，防止了错误的学习并有利于位置敏感任务。

特征图没有了 Dilated Conv 那种由于混叠导致的”gridding artifact“。

FreqSelect 预测较高频段的平均权重较低，这与逆幂律一致。在可视化图8中的热图后，我们注意到 FreqSelect 倾向于为对象边界分配更高的注意力权重。对于较高频段，这一点更为明显。它有选择地抑制对准确预测没有贡献的区域中的高频，例如背景和物体的中心。这鼓励 FADC 学习更高的扩张率，从而扩大感受野。FreqSelect 各频段可视化：