半监督语义分割_paper reading part2

03 SegFormer: Simple and Efficient Design for Semantic Segmentation with Transformers

在这里插入图片描述
Time:2021.05
在这里插入图片描述
我们提出了SegFormer,一个简单,高效而强大的语义分割框架,它将transformer与轻量级多层感知器(MLP)解码器统一起来。SegFormer有两个吸引人的特点:1)SegFormer包括一个新颖的层次结构变压器编码器,输出多尺度特征。它不需要位置编码,从而避免了位置编码的插值,从而导致测试分辨率与训练分辨率不同时性能下降。2) SegFormer避免了复杂的解码器。所提出的MLP解码器聚合来自不同层的信息,从而结合局部注意力和全局注意力来呈现强大的表示。我们表明,这种简单和轻量级的设计是变压器上有效分割的关键。我们扩大了我们的方法,获得了从SegFormer-B0到SegFormer-B5的一系列模型,达到了比以前的模型更好的性能和效率。例如,SegFormer-B4在ADE20K上采用64M参数实现了50.3%的mIoU,比之前的最佳方法缩小了5倍,提高了2.2%。我们的最佳模型SegFormer-B5在cityscape验证集上达到84.0% mIoU,并在cityscape - c上表现出出色的零镜头鲁棒性。代码将在github.com/NVlabs/SegFormer发布。

03.1 Introduction

在这里插入图片描述

03.2 Method

在这里插入图片描述
没有手工制作和计算要求高的模块。如图2所示,SegFormer由两个主要模块组成:(1)一个分层Transformer编码器,用于生成高分辨率粗特征和低分辨率细特征;(2)一个轻量级的All-MLP解码器来融合这些多层次的特征,以产生最终的语义分割掩码。

在这里插入图片描述
Effective Receptive Field Analysis.
在语义分割中,保持较大的接受域以包含上下文信息一直是一个核心问题[5,19,20]。在这里,我们使用有效接受域(ERF)[70]作为工具箱来可视化和解释为什么我们的MLP解码器设计在变形金刚上如此有效。在图3中,我们可视化了DeepLabv3+和SegFormer的四个编码器阶段和解码器头的erf。我们可以观察到以下几点:

  • DeepLabv3+的ERF即使在最深的阶段-4也相对较小。
  • SegFormer的编码器自然地产生局部注意,这些注意类似于较低阶段的卷积,同时能够输出高度非局部注意,有效地捕获阶段4的上下文。
  • 如图3的放大补丁所示,MLP头部(蓝框)的ERF与阶段4(红框)不同,除了非局部注意外,其局部注意明显更强。

03.3 experiment

03.3.1 Ablation studies 涉及模型尺寸,编码器和解码器设计。

在这里插入图片描述
模型大小的影响我们首先分析了增加编码器尺寸对性能和模型效率的影响。图1显示了ADE20K的性能与模型效率作为编码器尺寸的函数,表1a总结了三个数据集的结果。这里首先要观察的是解码器与编码器的大小。如图所示,对于轻量级模型,解码器只有0.4M参数。对于MiT-B5编码器,解码器只需要模型中参数总数的4%。在性能方面,我们可以观察到,总的来说,增加编码器的大小会在所有数据集上产生一致的改进。我们的轻量级模型SegFormer-BO紧凑高效,同时保持了具有竞争力的性能,这表明我们的方法非常方便于实时应用。另一方面,我们最大的模型SegFormer-B5在所有三个数据集上都达到了最先进的结果,显示了我们Transformer编码器的潜力。

C,影响MLP解码器的信道维数我们现在分析信道维度C在MLP解码器中的影响,参见第3.2节。在表1b中,我们展示了性能、flop和参数作为这个维度的函数。我们可以观察到,设置C = 256提供了非常有竞争力的性能和计算成本。性能随着C的增加而增加;然而,这会导致更大且效率更低的模型。有趣的是,当信道维度大于768时,这种性能趋于稳定。鉴于这些结果,我们选择C = 256的实时模型SegFormer-B0, B1和C =768的其余部分。

表1c显示了本实验的结果。如图所示,对于给定的分辨率,我们使用Mix-FFN的方法明显优于使用位置编码。此外,我们的方法对测试分辨率的差异不太敏感:当使用具有较低分辨率的位置编码时,精度下降3.3%。相比之下,当我们使用所提出的Mix-FFN时,性能下降仅为0.7%。从这些结果中,我们可以得出结论,使用所提出的Mix-FFN比使用位置编码产生更好、更健壮的编码器。

有效的接受野评估。在第3.2节中,我们认为与其他CNN模型相比,我们的MLP解码器受益于变形金刚具有更大的有效接受域。为了量化这种效果,在这个实验中,我们比较了我们的mlp解码器与基于cnn的编码器(如ResNet或ResNeXt)使用时的性能。如表1d所示,耦合我们的mlp解码器与基于cnn的编码器相比,与所提出的变压器编码器耦合产生的精度显著降低。直观地说,由于CNN的接受域比Transformer小(参见3.2节中的分析),mlp解码器不足以进行全局推理。相比之下,将我们的Transformer编码器与MLP解码器耦合可以获得最佳性能。此外,对于Transformer编码器,需要将低级局部特征和高级非局部特征结合起来,而不是只有高级特征。

03.3.2 Comparison to state of the art methods on ADE20K and Cityscapes.

在这里插入图片描述
我们现在将我们的结果与ADE20K[72]、cityscape[71]和COCO-Stuff[73]数据集上的现有方法进行比较。ADE20K和cityscape: 表2总结了我们的结果,包括参数、FLOPS、延迟和ADE20K和cityscape的准确性。在表格的顶部,我们报告了实时方法,其中包括最先进的方法和使用MiT-BO轻量级编码器的结果。在底部部分,我们关注性能,并报告使用更强编码器的方法和相关工作的结果。

如图所示,在ADE20K上,SegFormer-B0仅使用3.8M参数和8.4G FLOPs就产生37.4%的mIoU,在参数、FLOPs和延迟方面优于所有其他实时对手。例如,与DeeplabV3+ (MobileNetV2)相比,SegFormer-BO是7.4 FPS,速度更快,mIoU保持3.4%。此外,segprevious - b5优于所有其他方法,包括之前最好的SETR,并建立了51.8%的新技术,比SETR高出1.6% mIoU,同时效率显著提高。

如表2所示,我们的结果也适用于城市景观。SegFormer-B0输出15.2 FPS和76.2% mIoU(输入图像的短边为1024),与DeeplabV3+相比,mIoU提高了1.3%,速度提高了2倍。此外,当输入图像的短边为512时,SegFormer-B0的帧率为47.6 FPS, mIoU的产量为71.9%17.3 FPS,比ICNet好4.2%。SegFormer-B5存档了84.0%的最佳IoU,至少优于所有现有的方法1.8% mIoU,运行速度比SETR[7]快5倍,体积小4倍。

03.3.3

在这里插入图片描述
在城市景观测试集中,我们遵循公共设置[20],并将验证图像合并到训练集,并使用Imagenet-1K预训练和Mapillary views报告结果[76]。如表3所述,仅使用城市景观精细数据和Imagenet-1K预训练,我们的方法获得了82.2%的mIoU,优于所有其他方法,包括使用ImageNet-22K预训练和额外的城市景观粗数据的SETR。使用Mapillary预训练,我们获得了83.1% mIoU的最新结果。图4显示了城市景观的定性结果,其中SegFormer提供了比SETR更好的细节,比DeeplabV3+更平滑的预测。
在这里插入图片描述
图4:城市景观的定性结果。与SETR相比

  • 2
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

猛码Memmat

欢迎支持,随缘打赏 ~

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值