【论文翻译】AFFormer:Head-Free Lightweight Semantic Segmentation with Linear Transformer

论文提出了一种名为AFFormer的轻量级无头架构,专门用于语义分割任务,以解决现有方法的计算复杂度问题。通过原型表示和自适应频率滤波器,AFFormer在保持高分辨率特征的同时,降低了计算成本。实验证明,AFFormer在保持低计算资源的同时,实现了与更复杂模型相当甚至更高的精度。
摘要由CSDN通过智能技术生成

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-8pFrgtz9-1680335968526)(C:\Users\liwenzhuo\AppData\Roaming\Typora\typora-user-images\image-20230331191106003.png)]

论文地址:https://arxiv.org/pdf/2301.04648v1.pdf

Abstract

​ 现有的语义分割工作主要集中在设计有效的解码器上;然而,整体结构引入的计算负载长期以来一直被忽视,这阻碍了它们在资源受限的硬件上的应用。在本文中,我们提出了一种专门用于语义分割的无头轻量级架构,称为自适应频率变换器(AFFormer)。AFFormer采用并行架构利用原型表示(prototype representations)作为特定的可学习局部描述,取代解码器并保留高分辨率特征上丰富的图像语义。尽管去除解码器压缩了大部分计算,但并行结构的精度仍然受到低计算资源的限制。因此,我们使用异构算子(CNN和Vision Transformer)进行像素嵌入原型表示,以进一步节省计算成本。此外,从空间域的角度将Vision Transformer的复杂度线性化是非常困难的。由于语义分割对频率信息非常敏感,我们构造了一个轻量级的原型学习块,用复杂度为 O ( n ) O(n) O(n)的自适应频率滤波器来代替标准的 O ( n 2 ) O(n^2) O(n2)的self-attention。在广泛采用的数据集上进行的大量实验表明,AFFormer在只保留3M个参数的情况下实现了卓越的精度。在ADE20K数据集上,AFFormer实现了41.8 mIoU和4.6 GFLOP,比Segformer高4.4 mIoU,GFLOP减少了45%。在Cityscapes数据集上,AFFormer实现了78.7 mIoU和34.4 GFLOP,比Segformer高2.5 mIoU,GFLOP减少72.5%。代码可在https://github.com/dongbo811/AFFormer.

1.Introduction

​ 语义分割旨在将图像划分为子区域(像素集合),自完全卷积网络(FCN)以来,语义分割被定义为像素级分类任务。与图像分类相比,它有两个独特的特征:像素密集预测和多类表示,这两个特征通常建立在高分辨率特征的基础上,并分别需要图像语义的全局归纳能力。以前的语义分割方法侧重于使用分类网络作为主干来提取多尺度特征,并设计复杂的解码头来建立多尺度特征之间的关系。然而,这些改进是以大模型尺寸和高计算成本为代价的。例如,众所周知的PSPNet使用轻量级MobilenetV2作为骨干,包含13.7M个参数和52.2个GFLOP,输入规模为512×512。具有相同主干的并广泛使用的DeepLabV3+需要15.4M个参数和25.8个GFLOP。固有的设计方式限制了该领域的发展,并阻碍了许多现实世界中的应用。因此,我们提出了以下问题:语义分割能像图像分类一样简单吗?

在这里插入图片描述

图1:左图:不同输入规模下的计算复杂性。与传统方法相比,Segformer大大降低了计算复杂度,如PSPNet和DeepLabV3+,它们以mobilenetV2为骨架。然而,Segformer对于更高的分辨率仍然有巨大的计算负担。右图: AFFormer在ADE20K和Cityscapes数据集上取得了更好的准确性,FLOPs明显降低。

​ 最近的Vision Transformers(ViTs)在语义分割方面显示出巨大的潜力,然而,当部署在超低计算能力设备上时,它们面临着平衡性能和内存使用的挑战。标准的Transformer在空间域中具有 O ( n 2 ) O(n^2) O(n2)的计算复杂度,其中 n n n 是输入分辨率。现有方法通过减少标记或滑动窗口的数量来缓解这种情况,但它们在计算复杂度上的减少有限,甚至会损害分割任务的全局或局部语义。同时,语义分割作为一个基础研究领域,有着广泛的应用场景,需要处理各种分辨率的图像。如图1所示,尽管与PSPNet和DeepLabV3+相比,著名的高效Segformer取得了重大突破,但它仍然面临着较高分辨率的巨大计算负担。在512×512的规模下,尽管Segformer与PSPNet和DeepLabV3+相比非常轻,但它的GFLOPs几乎是我们的两倍(8.4 GFLOPs vs 4.6 GFLOPs);在2048×2048的规模下,甚至需要5倍的GFLOP(384.3 GFLOP对73.2 GFLOP)。因此,我们提出了另一个问题:我们能否设计一个高效、轻量级的Transformer网络,用于超低计算场景中的语义分割?

​ 上述两个问题的答案是肯定的。为此,我们提出了一个无头轻量级语义分割的特定架构,名为自适应频率变换器(AFFormer)。受ViT保持单一的高分辨率特征图以保持细节金字塔结构降低分辨率以探索语义和降低计算成本AFFormer采用平行结构,利用原型表示作为特定的可学习的局部描述,取代了解码器,并保留了高分辨率特征上的丰富图像语义。并行结构通过移除解码器压缩了大部分的计算,但对于超低的计算资源来说,这仍然是不够的。此外,我们对像素嵌入特征和局部描述特征采用了异构算子,以节省更多的计算成本。一个名为原型学习(PL)的基于Transformer的模块被用来学习原型表征,而一个名为像素描述器(PD)的基于卷积的模块将像素嵌入特征和学到的原型表征作为输入,将它们转换回完整的像素嵌入空间以保留高分辨率语义

​ 然而,从空间域的角度来线性化Vision Transformer的复杂度仍然非常困难。受频率对分类任务的影响的启发,我们发现语义分割对频率信息也非常敏感。因此,我们构建了一个复杂度为O(n)的轻量级自适应频率滤波器作为原型学习,以取代 O ( n 2 ) O(n^2) O(n2)的标准self-attention。这个模块的核心是由频率相似性核动态低通和高通滤波器组成,它们分别从强调重要的频率成分和动态过滤频率的角度捕捉有利于语义分割的频率信息。最后,通过共享高、低频提取和增强模块的权重,进一步降低了计算成本。我们还在前馈网络(FFN)层中嵌入了一个简化的深度卷积层来增强融合效果,减少了两个矩阵变换的大小

​ 在并行异构架构和自适应频率滤波器的帮助下,我们只用一个卷积层作为分类层(CLS)来处理单尺度特征,实现了最佳性能,使语义分割像图像分类一样简单。我们在三个广泛使用的数据集上证明了所提出的AFFormer的优势: ADE20K、Cityscapes和COCO-stuff。仅用3个参数,AFFormer就大大超过了最先进的轻型方法。在ADE20K上,AFFormer以4.6 GFLOPs实现了41.8 mIoU,比Segformer高出4.4 mIoU,同时GFLOPs减少45%。在Cityscapes上,AFFormer实现了78.7 mIoU和34.4 GFLOPs,比Segformer高2.5 mIoU,GFLOPs减少72.5%。广泛的实验结果表明,在计算受限的情况下可以应用我们的模型,在不同的数据集上仍然保持高性能和稳健性。

2.Related Work

2.1 语义分割

​ 语义分割被认为是一项像素分类任务。在过去的两年里,出现了基于ViT的新范式,这些范式通过查询或动态内核实现掩码(mask)分类。例如,Maskformer学习目标查询并将其转换为掩码的嵌入层。Mask2former用强大的多尺度掩码Transformer加强了查询学习。K-Net采用动态内核来生成掩码。MaskDINO将目标检测引入语义分割,进一步提高了查询能力。然而,由于学习高效查询和动态内核的计算成本很高,上述方法都不适合低计算能力的场景。我们认为,这些范式的本质是通过用单个表征代替整体来更新像素语义。因此,我们利用像素嵌入作为特定的可学习的局部描述,提取图像和像素语义并允许语义互动

2.2 Efficient Vision Transformers

​ 视觉变换器的轻量级解决方案主要集中在self-attention的优化上,包括以下方式:减少Token长度和使用局部窗口。PVT通过空间缩减对键和值进行空间压缩,PVTv2通过池化操作进一步取代了空间缩减,但这种方式会丢失很多细节。Swin通过将self-attention限制在局部窗口,大大减少了令牌的长度,而这些违背了Transformer的全局性,限制了全局的感受野。同时,许多轻量级设计在MobileNet中引入Transformer,以获得更多的全局语义,但这些方法仍然受到传统Transformer的平方级计算复杂性的影响。Mobile-Former结合了MobileNet和Transformer的并行设计,可以实现局部和全局特征的双向融合性能,远远超过MobileNetV3等轻量级网络。然而,它只使用非常少的标记,这不利于语义分割任务。

3.Method

​ 在本节中,我们介绍了用于语义分割的轻型并行异构网络。首先证明了用并行异构网络替代语义解码器的基本信息。然后,我们介绍了像素描述和语义频率的建模。最后,我们讨论了并行架构的具体细节和计算开销。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-Fz8LHWI3-1680335968527)(C:\Users\liwenzhuo\AppData\Roaming\Typora\typora-user-images\image-20230401093318337.png)]

图2:自适应频率变换器(AFFormer)整体架构概述。我们首先展示并行异构网络的整体结构。具体来说,首先对patch嵌入后的特征 F F F 进行聚类,得到原型特征 G G G ,从而构建一个并行网络结构,其中包括两个异构算子。基于Transformer的模块作为原型学习,捕捉 G G G 中有利的频率成分,得到原型表示 G ′ G' G。最后 G ′ G' G 被一个基于CNN的像素描述器恢复,产生 F ′ F' F,用于下一阶段。

3.1 Parallel Heterogeneous Architecture【并行异构架构】

​ 通常语义分割解码器会将编码器获得的图像语义传播到每个像素,然后恢复下采样过程中丢失的细节。一个直接的替代方法是在高分辨率特征中提取图像语义,但它引入了大量的计算,特别是对于Vision Transformer。相比之下,我们提出了一个新的策略,用原型语义来描述像素语义信息。对于每个阶段,给定一个特征 F ∈ R H × W × C F∈R^{H×W×C} FRH×W×C,我们首先初始化一个网格 G ∈ R h × w × C G∈R^{h×w×C} GRh×w×C作为图像的原型,其中 G G G 中的每个点作为一个局部聚类中心,初始状态仅仅包含周围区域的信息。这里我们用一个 1 × C 1×C 1×C 的向量来表示每个点的局部语义信息。对于每个特定的像素,因为周围像素的语义不一致,所以每个聚类中心之间有重叠的语义。聚类中心在其对应的区域 α 2 α^2 α2 中加权初始化,每个聚类中心的初始化表示为:
G ( s ) = ∑ i = 0 n w i x i                    ( 1 ) G(s)=\sum_{i=0}^{n}w_ix_i \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ (1) G(s)=i=0nwixi                  (1)
其中 n = α × α n=α×α n=α×α w i w_i wi 表示 x i x_i xi 的权重, α α α 设为3。我们的目的是更新网格 G G G 中的每个聚类中心 s s s,而不是直接更新特征 F F F。由于 h × w ≪ H × W h \times w \ll H \times W h×wH×W,它大大简化了计算。

​ 在这里,我们使用基于Transformer的模块作为原型学习来更新每个聚类中心,它总共包含 L L L 层,更新后的中心被表示为 G ′ ( s ) G'(s) G(s)。对于每个更新的聚类中心,我们通过一个像素描述器(PD)来恢复它。让 F i ′ F'_i Fi表示恢复的特征,它不仅包含来自 F F F 的丰富的像素语义,还包含由聚类中心 G ′ ( s ) G'(s) G(s)收集的原型语义。由于聚类中心聚集了周围像素的语义,导致局部细节的损失,因此 P D PD PD 首先用像素语义来模拟 F F F 中的局部细节。具体来说, F F F 被投射到一个低维空间,建立像素之间的局部关系,使每个局部补丁保持一个独特的边界。然后, G ′ ( s ) G'(s) G(s) 被嵌入 F F F 中,通过双线性插值恢复到原始空间特征 F ′ F' F。最后,通过线性映射层将其整合。

3.2 Prototype Learning by Adaptive Frequency Filter Motivation【自适应频率滤波器驱动的原型学习】

图3:不同频率成分对语义分割的影响。我们使用切边(cut-edge)方法Segformer来评估频率成分对广泛使用的ADE20K数据集上的语义分割的影响。通过快速傅里叶变换将图像转换到频域,并使用半径为的低通算子将高频信息过滤掉。去除不同层次的高频成分后,预测性能会明显下降。

​ 语义分割是一项极其复杂的像素级分类任务,容易产生类别混淆。频率表示(Frequency Representation)可以作为学习类别之间差异的新范式,它可以挖掘出人类视觉所忽略的信息。如图3所示,人类对频率信息的去除是稳健的,除非绝大部分的频率成分被过滤掉了。然而,该模型对频率信息的去除极为敏感,即使去除少量的频率信息也会导致性能的显著下降。这表明,对于模型来说,挖掘更多的频率信息可以增强类别之间的差异,使每个类别之间的边界更加清晰,从而提高语义分割的效果

图4:原型学习中的自适应频率滤波器的结构。原型作为可学习的局部描述,利用频率成分相似性核来增强不同的成分,同时结合高效动态的低通和高通滤波器来捕捉更多的频率信息。

​ 由于特征 F F F 包含丰富的频率特征,网格 G G G 中的每个聚类中心也收集了这些频率信息。在上述分析的激励下,在网格 G G G 中提取更多有益的频率有助于区分每个聚类的属性。为了提取不同的频率特征,直接的方法是通过傅里叶变换将空间域特征转化为频谱特征,并在频域中使用简单的掩码滤波器来增强或衰减频谱中每个频率成分的强度。然后通过反傅里叶变换将提取的频率特征转换到空间域。然而,傅里叶变换和反变换带来了额外的计算费用,而且许多硬件不支持这种操作。因此,我们从光谱相关的角度出发,在vanilla vision Transformer的基础上设计了一个自适应频率滤波器块,以直接在空间域捕获重要的高频和低频特征。核心部件如图4所示,公式定义为:
A F F ( X ) = ∥ D h f c ( X ) ∥ H ⏟ corr.  + ∥ D m l f ( X ) ∥ M + ∥ D n h f ( X ) ∥ N ⏟ dynamic filters  ,               ( 2 ) \boldsymbol{A F} \boldsymbol{F}(X)=\underbrace{\left\|\boldsymbol{D}_{h}^{f c}(X)\right\|_{H}}_{\text {corr. }}+\underbrace{\left\|\boldsymbol{D}_{m}^{l f}(X)\right\|_{M}+\left\|\boldsymbol{D}_{n}^{h f}(X)\right\|_{N}}_{\text {dynamic filters }},\ \ \ \ \ \ \ \ \ \ \ \ \ (2) AFF(X)=corr.  Dhfc(X) H+dynamic filters  Dmlf(X) M+ Dnhf(X) N,             (2)
其中, D h f c D^{fc}_h Dhfc D m l f ( X ) D^{lf}_m(X) Dmlf(X) D n h f ( X ) D^{hf}_n(X) Dnhf(X) 分别表示具有 H H H 组以实现频率分量相关性增强的频率相似性核、具有 M M M 组的动态低通滤波器和具有 N N N 组的动态高通滤波器。 ∥ ⋅ ∥ \left\| \cdot \right\| 表示串联。值得注意的是,这些算子采用并行结构通过共享权重来进一步降低计算成本

3.3 Frequency Similarity Kernel (FSK)【频率相似性核】

​ 不同的频率分量分布在 G G G 中,我们的目的是选择和增强有助于语义解析的重要分量。为此,我们设计了一个频率相似性内核模块,这个模块是由vision Transformer来实现的。给定特征 X ∈ R ( h w ) × C X∈R^{(hw)×C} XR(hw)×C,通过卷积层在 G G G 上进行相对位置编码。我们首先使用固定大小的相似性核 A ∈ R C / H × C / H A∈R^{C/H×C/H} ARC/H×C/H来表示不同频率分量之间的对应关系,并通过查询相似性核来选择重要的频率分量。我们将其视为函数传递,通过线性层计算频率分量的键 K K K 和值 V V V ,并通过 S o f t m a x Softmax Softmax 操作对频率分量上的键进行归一化。每个分量对相似度核 A i , j A_{i,j} Ai,j进行积分,其计算为:
A i , j = e k i v j T / ∑ j = 1 n e k i             ( 3 ) {A_{i,j}} = {e^{{k_i}v_j^T}}/\sum\limits_{j = 1}^n {{e^{{k_i}}}} \ \ \ \ \ \ \ \ \ \ \ (3) Ai,j=ekivjT/j=1neki           (3)
其中 k i k_i ki 表示 K K K 中的第 i i i 个频率分量, v j v_j vj 表示 V V V 中的第 j j j 个频率分量。我们还通过线性层将输入 X X X 转换为查询 Q Q Q ,并通过在固定大小的相似性内核上的交互来获得组件增强的输出。

3.4 Dynamic Low-Pass Filters(DLF) 【动态低通滤波器】

​ 低频分量占据了绝对图像中的大部分能量,并代表了大部分语义信息。低通滤波器允许截止频率以下的信号通过,而截止频率以上的信号被阻挡。因此,我们采用典型的平均池化作为低通滤波器。然而,不同图像的截止频率是不同的。为此,我们在多组中控制不同的内核和步长,以生成动态低通滤波器。对于第 m m m 组,我们有:
D m l f ( v m ) = B ( Γ s × s ( v m ) )          ( 4 ) D_m^{lf}({v^m}) = B({\Gamma _{s \times s}}({v^m})) \ \ \ \ \ \ \ \ (4) Dmlf(vm)=B(Γs×s(vm))        (4)
其中 B ( ⋅ ) B(·) B()表示双线性插值, Γ s × s Γ_{s×s} Γs×s 表示输出大小为 s × s s×s s×s的自适应平均池化。

3.5 Dynamic High-Pass Filters (DHF)【动态高通滤波器】

​ 高频信息对于在分割中保留细节是至关重要的。卷积作为一种典型的高通算子,可以滤除不相关的低频冗余分量,保留有利的高频分量。高频分量决定图像质量,并且每个图像的高通截止频率是不同的。因此,我们将值 V V V 分为 N N N 组,得到 v n v^n vn。对于每组,我们使用具有不同内核的卷积层来模拟不同高通滤波器中的截止频率。对于第 n n n 组,我们有:
D n h f ( v n ) = Λ k × k ( v n )             ( 5 ) D_n^{hf}({v^n}) = {\Lambda _{k \times k}}({v^n})\ \ \ \ \ \ \ \ \ \ \ (5) Dnhf(vn)=Λk×k(vn)           (5)
其中 ∧ k × k ∧_{k×k} k×k表示核大小为 k × k k×k k×k 的深度卷积层。此外,我们使用查询和高频特征的Hadamard乘积来抑制对象内部的高频,这是用于分割的噪声。

​ FFN有助于融合捕获的频率信息,但拥有大量的计算量,这在轻量级设计中经常被忽视。在这里,我们通过引入卷积层来减少隐藏层的维数,以弥补由于维数压缩而丢失的能力。

3.6 讨论

​ 对于频率相似性内核,计算复杂度为 O ( h w C 2 ) O(hwC^2) O(hwC2)。每个动态高通滤波器的计算复杂度为 O ( h w C k 2 ) O(hwCk^2) O(hwCk2),远小于频率相似核的计算复杂程度。由于动态低通滤波器是通过每组的自适应平均池化来实现的,因此其计算复杂度约为 O ( h w C ) O(hwC) O(hwC)。因此,模块的计算复杂度与分辨率成线性关系,这有利于语义分割的高分辨率。

4. Experiments

4.1 Implementation Details

​ 我们在三个公开数据集上验证了所提出的AFFormer:ADE20K、Cityscapes和COCO。我们在MMSegmentation工具箱的基础上使用PyTorch框架实现了我们的AFFormer。按照之前的工作,我们使用ImageNet-1k对模型进行预处理。在语义分割训练过程中,我们对所有数据集使用广泛使用的AdamW优化器来更新模型参数。为了进行公平比较,我们的训练参数主要遵循之前的工作。对于ADE20K和Cityscapes数据集,我们在Segformer中采用默认的训练迭代160K,其中mini-batchsize分别设置为16和8。对于COCO数据集,我们将训练迭代设置为80K,将mini-batchsize设置为16。此外,我们在ADE20K、Cityscapes、COCO素材的训练过程中通过随机水平翻转、比例为0.5-2.0的随机调整大小以及分别随机裁剪到512×512、1024×1024、512×512来实现数据扩充。我们用均交并比(mIoU)来评估结果。

4.2 Comparisons with Existing Works

表1:在分辨率为512×512的ADE20K上与现有技术方法的比较。在这里,我们使用Segformer作为基线,并报告增长百分比。MV2=MobileNetV2,EN=高效网络,SV2=ShuffleNetV2。

Results on ADE20K Dataset:我们将我们的AFFormer与顶级语义分割方法进行了比较,包括基于CNN和基于视觉转换器的模型。根据(Xie等人2021)中的inference设置,我们在512×512分辨率下测试FLOP,并在表1中显示单尺度结果。在与Lite ASPP相同的计算功耗下,我们的模型AFFormer-base提高了5.2 mIoU,达到41.8 mIoU。同时,通过减少层数和通道数量,我们获得了AFFormer-tiny和AFFormer-small版本,以适应不同的计算能力场景。对于轻量级和高效的Segformer(8.4 GFLOP),我们的base版本(4.6 GFLOPs)也使用了一半的计算能力获得了4.4 mIoU,而tiny版本(2.4 GFLOPs)仅使用了1/4的计算能力,提高了1.3 mIoU。较轻的顶部成型器只需要1.8 GFLOP,但我们的基本版本的参数减少了2.1M(5.1M比3M),mIoU增加了4.0。

表2:城市景观价值集与最先进方法的比较。FLOP在1024×2048的分辨率上进行了测试。同时,我们还报告了与Segformer相比的百分比增长。

Results on Cityscapes Dataset:表2显示了我们的模型和Cityscapes切边方法的结果。尽管Segformer足够高效,但由于其平方级的复杂性,我们只使用30%的计算成本就可以达到78.7 mIoU,这是2.5 mIoU的改进,FLOP减少了70%。同时,我们在表3中报告了不同高分辨率下的结果。在{512,640,768,1024}的短边,我们的模型的计算成本分别是Segformer的51.4%、57.5%、62.5%和72.5%。同时,mIoU分别提高了1.6、1.9、1.2和2.5。输入分辨率越高,我们的模型在计算成本和精度方面就越有利。

表3:Cityscapes上不同尺度下的速度-精度权衡。

Results on COCO-stuff Dataset:COCO数据集包含了大量在COCO中收集的困难样本。如表4所示,尽管复杂解码器(例如PSPNet、DeepLabV3+)可以获得比LR-ASPP(MV3)更好的结果,但它们带来了大量的计算成本。我们的模型实现了35.1 mIoU的精度,而只需要4.5 GFLOP,实现了最佳的权衡。

表4:与最先进的COCO材料方法的比较。我们使用输入分辨率为512×512的单尺度结果。MV3=移动网络V3
4.3 Ablation Studies

​ 除非另有规定,否则所有消融研究均在具有AFFormer基础的ADE20K数据集上进行。

表5:并行结构的消融研究。

Rationalization of Parallel Structures:并行结构是去除解码器头并确保准确性和效率的关键。我们首先将所提出的结构调整为一个简单的金字塔结构(表示为“w/o PD”)和一个ViT结构(表示为由“w/o PL”),以说明并行结构的优势。具体而言,“w/o PD”意味着移除PD模块并只保留PL模块,而“w/o PL”则相反。如表5所示,由于缺乏高分辨率像素语义信息,设置“w/o PD”减少了2.6 mIoU。由于参数较少且缺乏丰富的图像语义信息,没有金字塔结构的“w/o PL”结构的准确性显著降低。它还证明了我们的并行体系结构可以有效地结合两种体系结构的优势。

表6:异构结构的消融研究。

Advantages of Heterogeneous Structure:异构方法的目的是进一步减少计算开销。采用PL模块学习聚类特征中的原型表示,然后使用PD组合原始特征进行恢复,避免了对高分辨率原始特征的直接计算,降低了计算成本。从表6可以看出,当并行分支被调整到像素描述模块(表示为“All PD”)时,这意味着原型表示是由PD模块学习的。模型尺寸仅为0.6M,FLOP减少了2.5G,但精度降低了14.3mIoU。这是由于PD缺乏学习优秀原型表示的能力。相反,在我们用PL模块取代PD模块(表示为“All PL”)后,FLOP增加了2.4G,但精度几乎没有差异。我们认为,PD模块实际上只是恢复学习原型的一种简单方法,而相对复杂的PL模块会使模型容量饱和。

表7:频率感知统计数据的消融研究。

Advantages of Adaptive Frequency Filter:我们使用两个差异较大的数据集,包括ADE20K和Cityscapes,来探索自适应频率滤波器模块中的核心组件。主要原因是ADE20K数据集的上限仅为40mIoU,而Cityscapes的上限为80mIoU。这两个数据集对不同频率具有不同程度的敏感性。我们在表7中报告了每个内部组件的好处。我们发现,仅DHF就优于DLF,尤其是在Cityscapes数据集上,其性能提高了2.6mIoU,而在ADE20K上,FSK显著高于DLF和DHF。这表明ADE20K可能更倾向于高频和低频之间的中间状态,而城市景观需要更多的高频信息。组合实验表明,各组成部分的优势相结合,可以稳定地提高ADE20K和Cityscapes的效果。

图5:第2阶段(左)和第3阶段(右)的频率分析。

Frequency Statistics Visualization:我们首先统计不同阶段的特征频率分布,如图5所示。可以发现,G2和F2的曲线几乎重叠,表明聚类后的频率与原始特征中的频率非常相似。G3和F3也是如此。然而,在频率自适应滤波后学习的原型表示显著改善了所包含的频率信息。局部放电恢复后,可以在不同阶段强调不同的频率分量。如图6所示,我们还分析了AFF模块中核心组件的频率效应。正如预期的那样,DLF和DHF分别表现出强大的低通和高通能力,就像FSK一样。同时,我们还发现,FSK筛选和增强的重要频率分量主要集中在高频部分,但频率信号比DHF更饱和。这也表明高频分量在语义分割任务中尤为重要,因为它更强调对象之间的边界细节和纹理差异。同时,根据表7中的分析(ADE20K和Cityscapes的效果稳步提高),每个核心组件都有自己的优势,AFF模块在各种类型和复杂场景中表现出强大的鲁棒性。

图6:PL模块中核心组件的频率分析。

Speed and Memory Costs:同时,我们在表8中报告了Cityscapes数据集的速度。我们可以发现,所提出的模型提高了10 FPS,并且在这种高分辨率的城市景观图像上比Segformer表现得更好。

表8:FPS在V100 NVIDIA GPU上进行测试,批量大小为1,分辨率为1024x2048。

Conclusion

​ 在本文中,我们提出了AFFormer,一种无头的轻量级语义分割专用架构。核心是从频率的角度学习聚类原型的局部描述表示,而不是直接学习所有的像素嵌入特征。它去除了复杂的解码器,同时具有线性复杂度转换器,并实现了像常规分类一样简单的语义分割。各种实验表明,AFFormer在低计算成本下具有强大的精度、良好的稳定性和鲁棒性。

liteseg是一种新型的轻型卷积神经网络,用于语义分割任务。语义分割是计算机视觉中的一个重要问题,旨在将图像中的不同物体或区域进行标记和分割,从而更好地理解图像的内容。 相比于传统的语义分割方法,liteseg具有以下几个优点。首先,它是一种轻型网络,意味着它在计算资源和存储空间方面要求较低。这使得liteseg能够在资源受限的设备上运行,例如移动设备、嵌入式系统等。 其次,liteseg采用了一种新颖的卷积神经网络架构。这种架构结合了最新的深度学习技术和图像处理技术,旨在提高语义分割的准确性和效率。通过适当选择和组合不同类型的卷积层、池化层和解卷积层,liteseg能够捕捉图像中的不同尺度和领域的信息,并将其应用于语义分割。 第三,liteseg具有较低的模型复杂度。这意味着它需要更少的参数和计算量,从而减少了训练和推理的时间成本。这对于实时应用和大规模数据集的训练非常重要。 最后,liteseg还具有较好的鲁棒性和通用性。它可以应用于各种不同类型的图像和场景,包括自然图像、医学图像、遥感图像等。此外,liteseg在面对不同的光照、尺度变化和噪声等因素时也能保持良好的分割效果。 综上所述,liteseg作为一种新型的轻型卷积神经网络,具有在计算资源有限的设备上高效运行、准确性高、模型复杂度低以及对各种图像和场景具有通用性等优点。它有着广阔的应用前景,并在计算机视觉领域具有重要的研究和实际应用价值。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值