用于语义分割的频率自适应膨胀卷积

摘要

https://openaccess.thecvf.com/content/CVPR2024/papers/Chen_Frequency-Adaptive_Dilated_Convolution_for_Semantic_Segmentation_CVPR_2024_paper.pdf
膨胀卷积通过在连续元素之间插入间隔来扩大感受野,在计算机视觉中被广泛应用。在本研究中,我们从频谱分析的角度提出了三种策略来改进膨胀卷积的各个阶段。不同于将全局膨胀率固定为超参数的常规做法,我们引入了频率自适应膨胀卷积(Frequency-Adaptive Dilated Convolution,FADC),该算法基于局部频率分量在空间上动态调整膨胀率。随后,我们设计了两个插件模块来直接增强有效带宽和感受野大小。自适应核(Adaptive Kernel,AdaKern)模块将卷积权重分解为低频和高频分量,并根据每个通道动态调整这些分量之间的比例。通过增加卷积权重中的高频部分,AdaKern能够捕获更多的高频分量,从而提高有效带宽。频率选择(Frequency Selection,FreqSelect)模块通过空间变异的重新加权,在特征表示中最佳地平衡高频和低频分量。它抑制背景中的高频分量,以鼓励FADC学习更大的膨胀率,从而扩大感受野的范围。我们在分割和目标检测任务上进行了大量实验,一致验证了该方法的有效性。代码已公开,网址为https://github.com/ying-fu/FADC。

1. 引言

膨胀卷积通过在膨胀率( D D D)下在滤波器值之间插入间隔来扩大感受野,而不会显著增加计算负载。这种技术在计算机视觉任务中被广泛使用,如语义分割[9, 82]和目标检测[56]。

虽然使用较大的膨胀率可以有效地扩大感受野大小,但这会牺牲高频分量的响应[82]。将膨胀率从1增加到 D D D,相当于通过零插入将卷积核扩展 D D D倍。根据傅里叶变换的缩放特性[52, 57],卷积核的频率响应曲线和带宽都将缩小到 1 D \frac{1}{D} D1。如图1所示,红色曲线( D = 4 D=4 D=4)的带宽仅为蓝色曲线( D = 1 D=1 D=1)的四分之一。带宽的减少极大地限制了层处理高频分量的能力。例如,当特征图的高频内容高于膨胀卷积的采样率时,会出现网格伪影[69,82]。
在这里插入图片描述

在本文中,我们引入频率自适应膨胀卷积(FADC),通过频谱分析的角度来增强膨胀卷积。如图2所示,FADC包含三个关键策略,即自适应膨胀率(Adaptive Dilation Rate,AdaDR)、自适应核(AdaKern)和频率选择(FreqSelect),旨在增强普通膨胀卷积的各个阶段。AdaDR在空间上调整膨胀率,AdaKern对卷积核权重进行操作,而FreqSelect直接平衡输入特征的频率功率,以鼓励感受野的扩展。

与全局固定膨胀率的传统方法不同,我们的AdaDR根据频谱在局部动态分配膨胀率。例如,在图1(a)的补丁1中,汽车边界显示出很多高频分量(由蓝色实线表示),AdaDR应用较小的膨胀率( D = 1 D=1 D=1)和较宽的有效带宽(由蓝色点曲线表示)。相反,在图1(a)的补丁2中的车门处,频率功率主要集中在低频域,AdaDR将膨胀率 D D D增加到4,因为即使带宽减小,仍然可以包含大量的频率功率。这两个补丁的膨胀图如图1(d)所示。与固定的膨胀率(例如[42,82]中的 D = 1 , 2 , 4 D=1,2,4 D=1,2,4)相比,我们的AdaDR将图1的理论平均感受野大小从约440像素提高到约1000像素。

在这里插入图片描述

AdaKern是一个插件模块,它操作卷积核以优化图3中的频率响应曲线,并增强有效带宽。如图3所示,该模块将卷积权重分解为低频和高频分量。这使我们能够基于每个通道动态地操作这两个分量。例如,增加高频核的权重(在图2底部以红色标记)会导致高频分量的响应更强,从而如图3左侧所示( λ h / λ l = 2 \lambda_{h} / \lambda_{l}=2 λh/λl=2的曲线),增加有效带宽。
在这里插入图片描述

FreqSelect通过在输入扩张卷积之前平衡特征中的高频和低频分量来增加感受野大小。由于卷积倾向于放大高频分量[49],扩张卷积后的特征通常表现出更高比例的高频分量。为了捕获这些增加的高频分量,将倾向于使用小的扩张率 D D D,因为它具有较大的有效带宽,但代价是感受野大小会受到影响。通过抑制输入特征上的高频功率,我们的FreqSelect模块能够增加相应的感受野大小。具体来说,如图2所示,FreqSelect将特征图从低频到高频分解为4个频率通道。然后,我们使用选择图对每个通道进行空间重新加权,以平衡频率功率,从而使FADC能够有效地学习更大的感受野。

我们在语义分割方面的实验结果表明,我们提出的方法始终带来改进,从而验证了我们的方法的有效性。特别是,当我们的方法与PIDNet结合应用时,它在Cityscapes数据集上实现了推理速度和准确性之间的最佳平衡,达到了37.7 FPS下的81.0 mIoU。此外,我们提出的策略还可以融入可变形卷积和扩张注意力机制,从而在分割和对象检测任务中一致地提升性能。我们的贡献可以概括为以下几点:

  • 我们使用频率分析对扩张卷积进行了深入探索,将扩张的分配重新定义为涉及平衡有效带宽和感受野的权衡问题。
  • 我们引入了频率自适应扩张卷积(FADC)。它采用了自适应扩张率(AdaDR)、自适应核(AdaKern)和频率选择(FreqSelect)策略。AdaDR以空间变化的方式动态调整扩张率,以实现有效带宽和感受野之间的平衡。AdaKern自适应地调整核以充分利用带宽,而FreqSelect学习一个频率平衡的特征以鼓励较大的感受野。
  • 我们通过在分割任务中的综合实验验证了我们的方法,始终证明了其有效性。此外,当在对象检测和分割任务中将提出的AdaKern和FreqSelect与可变形卷积和扩张注意力机制结合时,也证明了它们的有效性。

2. 相关工作

内容自适应网络。随着深度学习技术的发展[18, 59, 72, 74, 85-87],各种工作[13, 21, 58, 61, 67, 90]已经证明了内容自适应特性的有效性。一种内容自适应策略涉及权重调整,这种方法被广泛采用。最近的视觉变换器[15, 23, 43]结合了注意力机制来预测输入自适应的注意力值。这些模型在大感受野方面取得了显著成功,但计算量大。

除了权重调整外,[1, 13, 31, 70, 78, 91]修改了与我们的工作密切相关的卷积核的采样网格。可变形卷积[13, 70, 91]被用于各种计算机视觉任务,包括对象检测。它为采样网格中的每个位置引入了 K × K × 2 K \times K \times 2 K×K×2个不对称偏移量,导致提取的特征出现空间偏差。在对象检测任务中,通过回归来校正估计的框以减轻这些偏差。然而,在诸如语义分割等位置敏感任务中,每个位置处的密度和特征具有强烈的一致性至关重要,具有空间偏差的特征可能导致错误的学习。相比之下,提出的频率自适应扩张卷积每个位置只需要一个值作为扩张率。这种方法需要更少的额外标准卷积来计算采样坐标,因此是轻量级的。此外,它消除了空间偏差,从而降低了错误学习的风险,并有利于位置敏感任务。

自适应扩张卷积[1, 31, 78]也摒弃了全局固定扩张率的使用。[31]将卷积核中每个点的扩张率设定为学习到的固定权重,而[1,78]则基于扩张值与卷积层之间的层间模式或目标尺度相关联的假设,经验性地调整扩张率。与依赖直观假设的[1,31,78]不同,本文所提方法是由定量频率分析驱动的。此外,这些方法忽略了特征频率超过采样率时出现的混叠伪影,从而使其面临性能下降的潜在风险。

神经网络中的混叠伪影。神经网络中混叠伪影的问题在计算机视觉领域正受到越来越多的关注。一些研究分析了神经网络下采样过程中因采样不足而产生的混叠伪影[28,33,66,84,92]。其他研究则将关注点拓宽至各种应用中的抗混叠技术,如视觉Transformer[53]、微小目标检测[46]和生成对抗网络(GANs)中的图像生成[30]。关于扩张卷积中的混叠伪影,通常称为网格伪影,当特征图包含高于扩张卷积采样率的高频内容时,就会出现这种伪影[82]。先前的工作要么经验性地应用学习到的卷积来获取用于抗混叠的低通滤波器[82],要么使用具有多个扩张率的扩张卷积[63,69],要么使用全连接层来平滑扩张卷积[71]。然而,这些方法主要是经验性设计的,涉及堆叠更多层,并且没有从频率的角度明确处理该问题。相比之下,本文所提方法通过基于局部频率动态调整扩张率来避免网格伪影。此外,FreqSelect策略通过抑制背景或目标中心的高频来发挥作用。这种方法为解决混叠伪影提供了一个更具原则性和有效性的解决方案。

频域学习。传统信号处理长期以来一直依赖频域分析作为基本工具[2,51]。值得注意的是,这些成熟的方法最近已在深度学习中找到应用,发挥着举足轻重的作用。在这种情况下,它们被用于研究深度神经网络(DNNs)的优化策略[79]和泛化能力[68]。此外,这些频域技术已被无缝集成到DNN架构中。这种集成促进了非局部特征[11, 20, 29, 36, 55]或域泛化表示[37]的学习。最近的研究[49, 83]表明,捕获高频和低频成分的平衡表示可以提高模型性能。因此,本文的方法为扩张卷积提供了一个频率视角,并提高了其捕获不同频率信息的能力。

3. 频率自适应扩张卷积

所提频率自适应扩张卷积(FADC)的概述如图2所示。在本节中,我们首先介绍自适应扩张率(AdaDR)策略,概述如何平衡带宽和感受野。随后,我们将深入探讨AdaKern和FreqSelect策略的细节,旨在充分利用带宽并促进大感受野。

3.1. 自适应扩张率

扩张卷积。广泛使用的扩张卷积可以表述如下:

Y ( p ) = ∑ i = 1 K × K W i X ( p + Δ p i × D ) \mathbf{Y}(p)=\sum_{i=1}^{K \times K} \mathbf{W}_{i} \mathbf{X}\left(p+\Delta p_{i} \times D\right) Y(p)=i=1K×KWiX(p+Δpi×D)

其中, Y ( p ) \mathbf{Y}(p) Y(p)表示输出特征图中位置 p p p的像素值, K K K是卷积核大小, W i \mathbf{W}_{i} Wi表示卷积核的权重参数, X ( p + Δ p i ) \mathbf{X}\left(p+\Delta p_{i}\right) X(p+Δpi)表示输入特征图中与 p p p位置对应,偏移量为 Δ p i \Delta p_{i} Δpi的像素值。变量 Δ p i \Delta p_{i} Δpi表示预定义网格采样 ( − 1 , − 1 ) , ( − 1 , 0 ) , ( − 1 , + 1 ) , … , ( + 1 , + 1 ) (-1,-1),(-1,0),(-1,+1), \ldots,(+1,+1) (1,1),(1,0),(1,+1),,(+1,+1)的第 i i i个位置。通过增加扩张率 D D D可以扩大感受野。

频率分析。先前的工作观察到,扩张率的增加会导致频率信息捕获能力的下降[69, 71, 82]。具体而言,将扩张率从1增加到 D D D会使卷积核按照傅里叶变换的缩放属性放大 D D D倍。因此,卷积核的响应频率降低至 1 D \frac{1}{D} D1,导致频率响应从高频向低频移动[52, 57],如图1所示。此外,扩张卷积实际上以 1 D \frac{1}{D} D1的采样率运行,因此无法捕获高于奈奎斯特频率(即采样率的一半 1 2 D \frac{1}{2D} 2D1)的频率。

具体而言,我们首先使用离散傅里叶变换(DFT)将特征图 X ∈ R H × W \mathbf{X} \in \mathbb{R}^{H \times W} XRH×W变换到频域, X F = F ( X ) \mathbf{X}_{F}=\mathcal{F}(\mathbf{X}) XF=F(X),其表示形式为

X F ( u , v ) = 1 H W ∑ h = 0 H − 1 ∑ w = 0 W − 1 X ( h , w ) e − 2 π j ( u h + v w ) \mathbf{X}_{F}(u, v)=\frac{1}{H W} \sum_{h=0}^{H-1} \sum_{w=0}^{W-1} \mathbf{X}(h, w) e^{-2 \pi j(u h+v w)} XF(u,v)=HW1h=0H1w=0W1X(h,w)e2πj(uh+vw)

其中, X F ∈ R H × W \mathbf{X}_{F} \in \mathbb{R}^{H \times W} XFRH×W表示DFT输出的复数数组。 H H H W W W分别表示其高度和宽度。 h , w h, w h,w表示特征图 X \mathbf{X} X的坐标。高度和宽度维度中的归一化频率由 ∣ u ∣ |u| u ∣ v ∣ |v| v给出。将低频移至中心后, u u u的取值范围为集合 { − H 2 , − H + 1 2 , … , H − 1 2 } \left\{-\frac{H}{2},-\frac{H+1}{2}, \ldots, \frac{H-1}{2}\right\} {2H,2H+1,,2H1} v v v的取值范围为 { − W 2 , − W + 1 2 , … , W − 1 2 } \left\{-\frac{W}{2},-\frac{W+1}{2}, \ldots, \frac{W-1}{2}\right\} {2W,2W+1,,2W1}。因此,大于奈奎斯特频率的高频集合 H D + = { ( u , v ) ∣ ∣ u ∣ > 1 2 D 或 ∣ v ∣ > 1 2 D } \mathcal{H}_{D}^{+}=\left\{\left.(u, v)\left||u|>\frac{1}{2 D}\right.\right. \text{或} \left.|v|\right.>\frac{1}{2 D}\right\} HD+={(u,v) u>2D1v>2D1}无法被准确捕获,从而限制了其带宽。

自适应膨胀率。基于上述分析,膨胀率的选择可以被视为大感受野和有效带宽之间的权衡。考虑到输入特征图在空间上是变化的,每个像素的最优膨胀率可以不同。因此,我们引入了自适应膨胀率(AdaDR)策略以实现更好的平衡。它为每个像素分配不同的膨胀率。

Y ( p ) = ∑ i = 1 K × K W i X ( p + Δ p i × D ^ ( p ) ) \mathbf{Y}(p)=\sum_{i=1}^{K \times K} \mathbf{W}_{i} \mathbf{X}\left(p+\Delta p_{i} \times \hat{\mathbf{D}}(p)\right) Y(p)=i=1K×KWiX(p+Δpi×D^(p))

D ^ ( p ) \hat{\mathbf{D}}(p) D^(p) 可以通过带有参数 θ \theta θ 的卷积层进行预测。特别地,我们引入了一个ReLU层以确保膨胀率的非负性,并且还采用了调制机制[91]。它的目的是最大化感受野并最小化每个像素丢失的频率信息。对于以 p p p 为中心、窗口大小为 s s s 的局部特征,我们称之为 X ( p , s ) \mathbf{X}^{(p, s)} X(p,s)。其感受野 RF ⁡ ( p ) = ( K − 1 ) × D ^ ( p ) + 1 \operatorname{RF}(p)=(K-1) \times \hat{\mathbf{D}}(p)+1 RF(p)=(K1)×D^(p)+1 D ^ ( p ) \hat{\mathbf{D}}(p) D^(p) 成正相关。在集合 H D ^ ( p ) + \mathcal{H}_{\hat{\mathbf{D}}(\mathbf{p})}^{+} HD^(p)+ 中的频率无法被准确捕获。因此,可以通过计算高频功率 HP ⁡ ( p ) = ∑ H D ^ ( p ) + ∣ X F ( p , s ) ( u , v ) ∣ 2 \operatorname{HP}(p)=\sum_{\mathcal{H}_{\hat{\mathbf{D}}(p)}^{+}}\left|\mathbf{X}_{F}^{(p, s)}(u, v)\right|^{2} HP(p)=HD^(p)+ XF(p,s)(u,v) 2 来衡量丢失的频率信息。因此, θ \theta θ 的优化可以表示为

θ = max ⁡ θ ( ∑ R F ( p ) − ∑ H P ( p ) ) \theta=\max _{\theta}\left(\sum \mathrm{RF}(p)-\sum \mathrm{HP}(p)\right) θ=maxθ(RF(p)HP(p))

然而,由于频率集 H D ^ ( p ) + \mathcal{H}_{\hat{\mathbf{D}}(p)}^{+} HD^(p)+ 的离散性以及HP计算的非可微性,直接优化可能不切实际。因此,我们选择直接优化 D ^ ( p ) \hat{\mathbf{D}}(p) D^(p),即通过在HP较低的位置 p p p 增加膨胀率以鼓励更大的感受野,并在HP较高的位置抑制膨胀率以减少频率信息的损失。为了形式化这一优化,我们将其表示为

θ = max ⁡ θ ( ∑ p ∈ H P − D ^ ( p ) − ∑ p ∈ H P + D ^ ( p ) ) \theta=\max _{\theta}\left(\sum_{p \in \mathrm{HP}^{-}} \hat{\mathbf{D}}(p)-\sum_{p \in \mathrm{HP}^{+}} \hat{\mathbf{D}}(p)\right) θ=maxθ(pHPD^(p)pHP+D^(p))

其中, H P + \mathrm{HP}^{+} HP+ H P − \mathrm{HP}^{-} HP 分别表示具有最高/最低(例如,25%)高频功率的像素,即图4(b)中的较亮/较暗区域。
在这里插入图片描述

3.2 自适应核

AdaDR通过为每个像素单独分配膨胀率,在有效带宽和感受野之间实现了精细的平衡,并共同优化了这两个因素。有效带宽与卷积核的权重密切相关,起着至关重要的作用。传统卷积核学习在不同频段捕获特征,这对于理解复杂的视觉模式至关重要,但一旦训练完成,它们就会变得静态。为了进一步增强有效带宽,我们在引入动态加权以调整频率响应之前,将卷积核参数分解为低频和高频分量。这个过程只增加了很少的额外参数和计算开销。对于静态卷积核,其权重 W \mathbf{W} W 可以分解如下

W = W ‾ + W ^ \mathbf{W}=\overline{\mathbf{W}}+\hat{\mathbf{W}} W=W+W^

其中, W ‾ = 1 K × K ∑ i = 1 K × K W i \overline{\mathbf{W}}=\frac{1}{K \times K} \sum_{i=1}^{K \times K} \mathbf{W}_{i} W=K×K1i=1K×KWi 表示核级的平均 W \mathbf{W} W。它作为一个低通 K × K K \times K K×K 均值滤波器,然后是一个由 W ‾ \overline{\mathbf{W}} W 定义的参数的 1 × 1 1 \times 1 1×1 卷积。如[64]所述,较高的均值更有可能衰减高频分量。术语 W ^ = W − W ‾ \hat{\mathbf{W}}=\mathbf{W}-\overline{\mathbf{W}} W^=WW 表示残差部分,用于捕获局部差异并提取高频分量。分解后,我们的AdaKern动态调整高频和低频分量,可以正式表示为

W ′ = λ l W ‾ + λ h W ^ \mathbf{W}^{\prime}=\lambda_{l} \overline{\mathbf{W}}+\lambda_{h} \hat{\mathbf{W}} W=λlW+λhW^

其中, λ l , λ h \lambda_{l}, \lambda_{h} λl,λh 是每个通道的动态权重,由简单且轻量级的全局池化+卷积层预测。根据输入上下文动态调整 λ l λ h \frac{\lambda_{l}}{\lambda_{h}} λhλl 的比例,使网络能够关注特定的频段,并适应特征中视觉模式的复杂性。这种动态频率自适应方法增强了网络捕获低频上下文和高频局部细节的能力。这反过来又增加了有效带宽,从而在需要跨不同频率进行多样化特征提取的分割任务中提高了性能。

3.3. 频率选择

先前的研究[49]表明,传统卷积通常起到高通滤波器的作用。因此,所得特征往往表现出高频成分占比较高的趋势。这种倾向导致采用较小的总体扩张率以保持较高的有效带宽,但不幸的是,这牺牲了感受野的大小。FreqSelect旨在通过平衡特征表示中的高频和低频成分来增强感受野。

具体来说,FreqSelect首先通过在傅里叶域应用不同的掩码将特征分解为不同的频带:

X b = F − 1 ( M b X F ) \mathbf{X}_{b}=\mathcal{F}^{-1}\left(\mathcal{M}_{b} \mathbf{X}_{F}\right) Xb=F1(MbXF)

其中, F − 1 \mathcal{F}^{-1} F1表示逆快速傅里叶变换。 M b \mathcal{M}_{b} Mb是一个二进制掩码,用于提取相应的频率:

M b ( u , v ) = { 1  if  ϕ b ≤ max ⁡ ( ∣ u ∣ , ∣ v ∣ ) < ϕ b + 1 0  otherwise  \mathcal{M}_{b}(u, v)=\left\{\begin{array}{ll}1 & \text { if } \phi_{b} \leq \max (|u|,|v|)<\phi_{b+1} \\0 & \text { otherwise }\end{array}\right. Mb(u,v)={10 if ϕbmax(u,v)<ϕb+1 otherwise 

这里, ϕ b , ϕ b + 1 \phi_{b}, \phi_{b+1} ϕb,ϕb+1来自 B + 1 B+1 B+1个预定义的频率阈值 { 0 , ϕ 1 , ϕ 2 , … , ϕ B − 1 , 1 2 } \left\{0, \phi_{1}, \phi_{2}, \ldots, \phi_{B-1}, \frac{1}{2}\right\} {0,ϕ1,ϕ2,,ϕB1,21}。随后,FreqSelect在空间上对不同频带的频率成分进行动态加权。这可以表示为:

X ^ ( i , j ) = ∑ b = 0 B − 1 A b ( i , j ) X b ( i , j ) \hat{\mathbf{X}}(i, j)=\sum_{b=0}^{B-1} \mathbf{A}_{b}(i, j) \mathbf{X}_{b}(i, j) X^(i,j)=b=0B1Ab(i,j)Xb(i,j)

其中, X ^ ( i , j ) \hat{\mathbf{X}}(i, j) X^(i,j)是FreqSelect后学习到的频率平衡特征, A b ∈ R H × W \mathbf{A}_{b} \in \mathbb{R}^{H \times W} AbRH×W表示第 b b b个频带的选择图。具体来说,我们以八度音阶[62]的方式将频率分解为四个频带,即 [ 0 , 1 16 ) , [ 1 16 , 1 8 ) , [ 1 8 , 1 4 ) \left[0, \frac{1}{16}\right),\left[\frac{1}{16}, \frac{1}{8}\right),\left[\frac{1}{8}, \frac{1}{4}\right) [0,161),[161,81),[81,41) [ 1 4 , 1 2 ] \left[\frac{1}{4}, \frac{1}{2}\right] [41,21]

4. 实验

4.1. 实验设置

数据集和评估指标。我们在几个具有挑战性的语义分割数据集上评估了我们的方法,包括Cityscapes[12]和ADE20K[89]。我们采用语义分割的平均交并比(mIoU)[4, 8, 19, 40, 45]和目标检测/实例分割的平均精度(AP)[5-7, 24, 27]作为评估指标。

实现细节。Mask2Former[10]、PIDNet[76]、ResNet/HorNet+UPerNet,我们保持与原始论文[10, 54, 76]相同的设置。在COCO[38]数据集上,我们遵循常见做法[22,54,70],训练目标检测和实例分割模型12个( 1 × 1 \times 1×计划)或36个( 3 × 3 \times 3×计划)周期。在Dilated-ResNet的情况下,我们用提出的FADC替换了第3阶段的扩张卷积。对于PIDNet,瓶颈处的卷积被替换为提出的FADC。对于ResNet,我们用提出的FADC替换了第2到第4阶段的卷积。

4.2. 主要结果

在本节中,我们首先通过标准的语义分割基准来评估所提出方法的有效性。随后,我们报告了实时语义分割的结果。最后,我们将所提出的方法无缝集成到相关的可变形卷积(DCNv2[91])和先进框架中,如基于DCN3的InternImage[70],以及结合膨胀注意力机制,如DiNAT[22]所示。
在这里插入图片描述

标准语义分割。如表1所示,我们将提出的FADC与扩张卷积[82]、可变形卷积(DCNv2)[91]和自适应扩张卷积(ADC)[78]进行了比较。在广泛使用的Cityscapes数据集[12]上,当配备我们的FADC时,PSPNet、DeepLabV3+和Mask2Former的mIoU分别提高了 + 2.6 +2.6 +2.6 + 1.1 +1.1 +1.1 + 1.2 +1.2 +1.2。这些增强在附加计算和参数更少的情况下,比DCNv2高出 0.7 0.7 0.7 0.4 0.4 0.4 0.2 0.2 0.2 mIoU。FADC还优于采用自适应扩张策略的ADC,高出 0.8 0.8 0.8 mIoU。此外,如表2所示,在使用更具挑战性的ADE20K数据集时,FADC显著提高了ResNet-50与UPerNet的mIoU,提升了 3.7 3.7 3.7,甚至超过了其更重的对应版本ResNet-101( 44.4 44.4 44.4 vs. 42.9 42.9 42.9)。当应用于更大的HorNet-B时,它带来了 + 0.6 +0.6 +0.6的提升,并优于最近的最先进方法,包括Swin、ConvNeXt、RepLKNet-31L、InternImage和DiNAT。值得注意的是,与应用学习扩张间距的ConvNeXt-B-dcls[31]相比,HorNet-B-FADC表现出更优的性能和改进( 51.1 51.1 51.1 vs. 49.3 49.3 49.3 + 0.6 +0.6 +0.6 vs. + 0.2 +0.2 +0.2)。
在这里插入图片描述

实时语义分割。实时语义分割对于自动驾驶车辆[17]和机器人手术[60]等应用至关重要。我们进一步在Cityscapes数据集[12]上评估了所提出方法用于实时语义分割的性能,如表3所示。

配备FADC的PIDNet-M在每秒37.7帧(FPS)的帧率下实现了81.0的mIoU,超过了较重的PIDNet-L的性能,同时保持了更快的速度( 37.7 37.7 37.7 vs. 31.1 31.1 31.1),从而确立了新的最先进水平。这证明了所提出方法的效率。
在这里插入图片描述

与DCNv2、InternImage和DiNAT的集成。存在一组强大的技术来调整卷积或注意力的采样坐标,类似于扩张卷积。例如,DCNv2[91]、InternImage[70](基于DCNv3的模型)和DiNAT[22]。DCNv2和InternImage可以被概念化为将扩张率动态分配给内核的每个点。相反,DiNAT以类似于扩张卷积的方式调整用于计算注意力的采样坐标,从而遇到与扩张卷积相关的类似挑战。在这里,我们将提出的AdaKern和FreqSelect与DCNv2、InternImage(基于DCNv3的模型)和DiNAT相结合,以评估其有效性。表4展示了这种集成的影响。DCNv2在目标检测任务中已显示出显著的成功,而我们提出的AdaKern和FreqSelect进一步提高了框AP 0.9 0.9 0.9。此外,FreqSelect在ADE20K数据集上将InternImage的性能提高了 0.8 0.8 0.8,在COCO[39]上将DiNAT的掩码AP提高了 0.6 0.6 0.6。这些结果充分证明了我们的方法的有效性。

在这里插入图片描述

可视化结果。我们在图5中展示了具有代表性的可视化结果。第一行表明,膨胀卷积无法准确提取高频信息,如细杆的精细细节。相比之下,我们提出的频率自适应膨胀卷积(FADC)能够准确捕捉这些细节,从而做出更精确的预测。在最后一行中,很明显,由于感受野不足以提取局部信息,膨胀卷积在对大型卡车做出响应时遇到了困难。另一方面,FADC能够均匀地对大型卡车做出响应,从而得出更一致和准确的分割预测。这些可视化结果旨在说明我们提出的FADC在解决膨胀卷积的局限性方面的有效性。
在这里插入图片描述

5. 分析与讨论

我们以膨胀ResNet-50 [82]为基线模型,对所提出的FADC进行了深入分析。更多分析详见补充材料。
在这里插入图片描述

AdaDR分析。如图6所示,AdaDR学会了对高频区域(如汽车、自行车和人的边界,请参考图4©)预测较小的膨胀率,以维持高带宽来捕捉高频精细细节。相反,它会对较平滑且高频程度较低的区域分配较大的膨胀率,以扩大感受野。此外,与可变形卷积[13, 91]相比,AdaDR避免了图7所示的空间偏差,防止了错误学习,并对位置敏感任务有益。

AdaKern分析。AdaKern根据输入特征自适应地调整静态核中高频和低频成分的比例,从而调制卷积核的频率响应,使FADC能够提取更多高频详细信息。如图3右侧所示,我们对特征图中的频率功率进行了统计分析。与膨胀卷积相比,FADC提取了更多高频信息,这对于捕捉分割细节至关重要,而使用AdaKern进一步增强了这一能力。
在这里插入图片描述

FreqSelect分析。我们对FreqSelect为不同频段生成的平均权重进行了统计分析,如表8所示。FreqSelect为较高频段预测了较低的平均权重,这与反幂律[65]一致。在可视化图8中的热图后,我们注意到FreqSelect倾向于为对象边界分配更高的注意力权重。这在更高频段中更为明显。它选择性地抑制那些对准确预测没有贡献的区域(如背景和对象中心)中的高频,从而鼓励FADC学习更高的膨胀率,进而扩大感受野。
在这里插入图片描述

感受野。场景理解任务中强调了大感受野的重要性[14, 15]。采用AdaDR策略,FADC可以使用更高的整体膨胀率来扩大感受野,如表7所示,这超过了广泛使用的具有全局固定膨胀率的膨胀ResNet [82]。图8直观地展示了FreqSelect如何帮助提高FADC的平均膨胀率。通过选择性地对特征图中的频率进行加权,FreqSelect进一步鼓励更高的膨胀率,最终如表7所示,实现了更高的感受野。

带宽。测量复杂模型的带宽并不直接[58],因此,我们直接评估提取特征中的频率信息。在图3中,与膨胀卷积相比,FADC增加了高频段 [ 1 8 , 1 4 ) \left[\frac{1}{8}, \frac{1}{4}\right) [81,41) [ 1 4 , 1 2 ] \left[\frac{1}{4}, \frac{1}{2}\right] [41,21] 的功率。AdaKern进一步增强了频段 [ 1 4 , 1 2 ] \left[\frac{1}{4}, \frac{1}{2}\right] [41,21] 的功率。这表明提取了更多高频信息,从而提高了带宽。

混叠伪影。如[69, 82]所述,当特征图的频率内容超过膨胀卷积的采样率时,会出现混叠伪影,通常称为网格伪影,如图5所示。具体来说,当特征图内的频率超过膨胀卷积的有效带宽时,就会出现这些伪影。先前的研究试图通过引入额外的卷积层来学习低通滤波器以去除伪影[63,69],或通过采用多个膨胀率来提高采样率[63, 69],从而经验性地解决此问题。与这些方法相比,我们提出的方法通过根据局部频率动态调整膨胀率来减轻网格伪影。此外,FreqSelect通过抑制背景或对象中心中对准确预测没有贡献区域中的高频,对此做出了贡献。

6. 结论

在这项工作中,我们从频率角度回顾了膨胀卷积,并引入了FADC,通过三种关键策略:AdaDR、AdaKern和FreqSelect,来改进各个阶段。与采用固定全局膨胀率的传统方法不同,AdaDR根据局部频率成分动态调整膨胀率,增强了空间适应性。AdaKern在每个通道上动态调整卷积权重中低频和高频成分的比例,捕捉更多高频信息,提高整体有效带宽。FreqSelect通过空间变化的重新加权来平衡高频和低频成分,鼓励FADC学习更大的膨胀率,从而扩大感受野。在未来,我们计划将我们的定量频率分析扩展到可变形/膨胀注意力。此外,由于已经证明FADC可以无缝替换现有架构中的标准卷积层,我们将为FADC设计特定架构。

### 膨胀卷积(Dilated Convolution)原理 膨胀卷积是一种特殊的卷积方式,在标准的卷积核中加入空洞以扩展其感受野而不增加参数量或计算成本。这种机制通过设置一个新的超参数——膨胀率(dilation rate),决定了卷积核内部元素之间的间隔距离[^1]。 对于不同的膨胀率值,卷积行为会发生变化: - 当膨胀率为1时,膨胀卷积退化成普通的卷积; - 随着膨胀率增大,虽然卷积核占据的空间变大了,但是真正用于计算的有效权重数目并没有改变,这意味着可以在不显著提升计算负担的情况下获得更大的视野范围[^2]。 具体来说,假设有一个3x3的标准卷积核,在膨胀率为2的情形下,该卷积核实际上会在原图上跨越更多的空间位置来进行加权求和操作,从而捕捉到更大范围内像素间的关系[^3]。 ### 应用场景 膨胀卷积广泛应用于计算机视觉领域中的多个任务当中,尤其是在需要处理多尺度信息的任务里表现突出。例如语义分割、目标检测等应用场景中,利用不同层次上的膨胀卷积可以有效地聚合来自不同尺度的信息,提高模型性能[^4]。 ```python import torch.nn as nn class DilatedConvNet(nn.Module): def __init__(self, in_channels, out_channels): super(DilatedConvNet, self).__init__() # 定义一个膨胀率为2的3x3膨胀卷积层 self.dilated_conv = nn.Conv2d(in_channels=in_channels, out_channels=out_channels, kernel_size=(3, 3), stride=1, padding=2, dilation=2) def forward(self, x): output = self.dilated_conv(x) return output ``` 此代码片段展示了如何创建具有指定膨胀率的二维膨胀卷积神经网络模块,并将其集成到PyTorch框架下的自定义类`DilatedConvNet`之中。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

AI浩

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值