三十六章：Masked-attention Mask Transformer for Universal Image Segmentation——注意力掩码Transformer用于通用图像分割

Joney Feng

已于 2023-07-31 20:16:36 修改

阅读量753

点赞数 1

文章标签： transformer 深度学习人工智能神经网络机器学习

于 2023-07-24 22:12:47 首次发布

本文链接：https://blog.csdn.net/ADICDFHL/article/details/131905776

版权

&原文信息

原文题目：《Masked-attention Mask Transformer for Universal Image Segmentation》

原文引用：Cheng B, Misra I, Schwing A G, et al. Masked-attention mask transformer for universal image segmentation[C]//Proceedings of the IEEE/CVF conference on computer vision and pattern recognition. 2022: 1290-1299.

原文链接：https://openaccess.thecvf.com/content/CVPR2022/papers/Cheng_Masked-Attention_Mask_Transformer_for_Universal_Image_Segmentation_CVPR_2022_paper.pdfhttps://openaccess.thecvf.com/content/CVPR2022/papers/Cheng_Masked-Attention_Mask_Transformer_for_Universal_Image_Segmentation_CVPR_2022_paper.pdf

0.摘要

图像分割将具有不同语义的像素进行分组，例如类别或实例成员关系。每种语义选择都定义了一个任务。尽管每个任务的语义不同，但当前的研究集中于为每个任务设计专门的架构。我们提出了一种新的架构，称为Masked-Attention Mask Transformer（Mask2Former），它能够处理任何图像分割任务（全景、实例或语义）。其关键组件包括掩码注意力，通过将交叉注意力限制在预测的掩码区域内，提取局部特征。除了将研究工作量减少至少三倍外，它在四个流行数据集上的表现也远远超过了最佳专门架构。特别值得注意的是，Mask2Former在全景分割（COCO上的57.8 PQ）、实例分割（COCO上的50.1 AP）和语义分割（ADE20K上的57.7 mIoU）方面都取得了新的最高水平。

1.引言

图像分割研究了像素分组的问题。不同的像素分组语义（例如类别或实例成员关系）导致了不同类型的分割任务，如全景、实例或语义分割。尽管这些任务在语义上不同，但当前的方法为每个任务开发了专门的架构。基于完全卷积网络（FCN）[37]的像素级分类架构被用于语义分割，而基于掩码的分类架构[5,24]则用于实例级分割，其预测一组与单个类别相关联的二进制掩码。尽管这些专门的架构[6, 10, 24, 37]在推进每个单独的任务方面取得了进展，但它们缺乏灵活性以推广到其他任务。例如，基于FCN的架构在实例分割方面存在困难，导致与语义分割相比，实例分割的架构发展出不同的架构。因此，针对每个任务的每个专门架构都需要进行重复的研究和（硬件）优化工作。

为了解决这种碎片化问题，最近的研究[14, 62]尝试设计通用架构，能够使用相同的架构（即通用图像分割）处理所有分割任务。这些架构通常基于端到端的集合预测目标（例如DETR [5]），并成功地处理多个任务，而无需修改架构、损失或训练过程。需要注意的是，尽管具有相同的架构，通用架构仍然会针对不同的任务和数据集进行单独训练。通用架构不仅具有灵活性，而且最近在语义和全景分割方面展示了最先进的结果[14]。然而，最近的研究仍然专注于推进专门的架构[20, 39, 45]，这引发了一个问题：为什么通用架构还没有取代专门的架构？

尽管现有的通用架构足够灵活，能够处理任何分割任务，如图1所示，但实际上它们的性能落后于最佳专门架构。例如，通用架构的最佳报告性能[14, 62]目前比实例分割的最先进专门架构低（> 9 AP）。除了性能较差，通用架构的训练也更加困难。通常需要更先进的硬件和更长的训练时间表。例如，训练Mask2Former [14]需要300个epoch才能达到40.1 AP，而且只能在具有32G内存的GPU上适应一张图片。相比之下，专门的Swin-HTC++ [6]仅需72个epoch即可获得更好的性能。性能和训练效率问题都妨碍了通用架构的部署。

在这项工作中，我们提出了一种名为Masked-attention Mask Transformer（Mask2Former）的通用图像分割架构，它在不同的分割任务上优于专门的架构，同时在每个任务上仍然易于训练。我们建立在一个简单的元架构[14]上，包括一个骨干特征提取器[25, 36]，一个像素解码器[33]和一个Transformer解码器[51]。我们提出了关键的改进，以实现更好的结果和高效的训练。首先，我们在Transformer解码器中使用了掩码注意力，将注意力限制在以预测的分割为中心的局部特征上，这些分割可以是对象或区域，具体取决于分组的特定语义。与标准Transformer解码器中使用的交叉注意力不同，后者会关注图像中的所有位置，我们的掩码注意力能够加快收敛速度并提高性能。其次，我们使用多尺度高分辨率特征，有助于模型分割小的对象/区域。第三，我们提出了优化改进，例如切换自注意力和交叉注意力的顺序，使查询特征可学习，并去除了dropout；所有这些都能在不增加计算量的情况下提高性能。最后，我们通过在少数随机采样点上计算掩码损失，节省了3倍的训练内存而不影响性能。这些改进不仅提升了模型的性能，还使训练过程显著简化，使得具有有限计算资源的用户更容易使用通用架构。

我们使用四个流行的数据集（COCO [35]、Cityscapes [16]、ADE20K [65]和Mapillary Vistas [42]）对Mask2Former在三个图像分割任务（全景、实例和语义分割）上进行了评估。首次在所有这些基准测试中，我们的单一架构的性能与专门的架构相当或更好。Mask2Former在COCO全景分割[28]上达到了57.8 PQ的新的最先进水平，在COCO的实例分割[35]上达到了50.1 AP，在ADE20K的语义分割[65]上达到了57.7 mIoU，使用的是完全相同的架构。

图1. 最先进的分割架构通常针对每个图像分割任务进行专门设计。尽管最近的研究提出了通用架构，尝试处理所有任务，并在语义分割和全景分割上具有竞争力，但在实例分割方面仍存在困难。我们提出了Mask2Former，这是首次在多个数据集上的三个研究分割任务上超越最佳专门架构的架构。

2.相关工作

专门的语义分割架构通常将任务视为逐像素分类问题。基于FCN的架构[37]独立地为每个像素预测一个类别标签。随后的方法发现上下文对于精确的逐像素分类起着重要作用，并专注于设计定制的上下文模块[7,8,63]或自注意力变体[21,26,45,55,61,64]。

专门的实例分割架构通常基于"掩码分类"。它们预测一组与单个类别标签相关联的二进制掩码。开创性的工作Mask R-CNN [24]从检测到的边界框生成掩码。后续的方法要么专注于检测更精确的边界框[4,6]，要么寻找生成动态数量的掩码的新方法，例如使用动态卷积核[3,49,56]或聚类算法[11,29]。尽管每个任务的性能都有所提高，但这些专门的创新缺乏从一个任务泛化到另一个任务的灵活性，导致了重复的研究工作。例如，虽然已经提出了多种方法来构建特征金字塔表示[33]，但正如我们在实验中所展示的，BiFPN [47]在实例分割中的表现更好，而FaPN [39]在语义分割中的表现更好。

Panoptic分割被提出来统一语义分割和实例分割任务[28]。Panoptic分割的架构要么将专门的语义分割和实例分割架构的优点结合到一个单一的框架中[11,27,31,60]，要么设计新的目标，同等对待语义区域和实例对象[5,52]。尽管有了这些新的架构，研究人员仍在为不同的图像分割任务开发专门的架构[20,45]。我们发现，Panoptic架构通常只报告单一的Panoptic分割任务的性能[52]，这并不能保证在其他任务上有好的表现（图1）。例如，Panoptic分割不能衡量架构在实例分割中对预测进行排序的能力。因此，我们不称那些仅针对Panoptic分割进行评估的架构为通用架构。相反，我们在所有研究的任务上评估我们的Mask2Former，以确保其具有普适性。

随着DETR [5]的出现，通用架构开始出现，并且显示出基于掩码分类的架构以端到端的集合预测目标可以适用于任何图像分割任务。MaskFormer [14]表明基于DETR的掩码分类不仅在Panoptic分割上表现出色，而且在语义分割上也达到了最先进的水平。K-Net [62]进一步将集合预测扩展到实例分割。不幸的是，这些架构无法取代专门的模型，因为它们在特定任务或数据集上的性能仍然不如最佳的专门架构（例如，MaskFormer [14]无法很好地分割实例）。据我们所知，Mask2Former是第一个在所有考虑的任务和数据集上优于最先进的专门架构的架构。

3.掩码注意力掩码Transformer

现在我们介绍Mask2Former。首先，我们回顾一种掩码分类的元架构，Mask2Former是基于这种架构构建的。然后，我们介绍我们的新的带有掩码注意力的Transformer解码器，这是实现更好收敛和结果的关键。最后，我们提出了训练改进，使Mask2Former高效且易于使用。

3.1.掩码分类初步

掩码分类架构通过预测N个二进制掩码以及N个相应的类别标签，将像素分组成N个段。通过为不同的段分配不同的语义，如类别或实例，掩码分类足够通用以解决任何分割任务。然而，挑战在于为每个段找到良好的表示。例如，Mask R-CNN [24]使用边界框作为表示，这限制了它在语义分割中的应用。受到DETR [5]的启发，图像中的每个段可以表示为一个C维特征向量（"对象查询"），并且可以通过一个Transformer解码器进行处理，该解码器以集合预测目标进行训练。一个简单的元架构由三个组件组成。一个主干网络从图像中提取低分辨率特征。一个像素解码器逐渐从主干网络的输出中上采样低分辨率特征，生成高分辨率的逐像素嵌入。最后，一个Transformer解码器对图像特征进行操作，处理对象查询。最终的二进制掩码预测通过从逐像素嵌入和对象查询中解码得到。这样的元架构的一个成功实例是MaskFormer [14]，更多细节可参考[14]。

3.2.带有掩码注意力的Transformer解码器

Mask2Former采用了前面提到的元架构，其中我们提出的Transformer解码器（图2右侧）替代了标准的解码器。我们的Transformer解码器的关键组件包括一个掩码注意力操作符，它通过将交叉注意力限制在每个查询的预测掩码的前景区域内，而不是注意整个特征图，从而提取局部特征。为了处理小物体，我们提出了一种高效的多尺度策略来利用高分辨率特征。它以循环方式将像素解码器的特征金字塔中的连续特征图馈送到连续的Transformer解码器层中。最后，我们还引入了优化改进，可以提升模型性能而不引入额外的计算。现在我们详细讨论这些改进。

图2. Mask2Former概述。Mask2Former采用与MaskFormer [14]相同的元架构，包括主干网络、像素解码器和Transformer解码器。我们提出了一个新的Transformer解码器，使用掩码注意力代替标准的交叉注意力（第3.2.1节）。为了处理小物体，我们提出了一种高效利用像素解码器的高分辨率特征的方法，即每次将一个尺度的多尺度特征馈送到一个Transformer解码器层中（第3.2.2节）。此外，我们交换了自注意力和交叉注意力的顺序（即我们的掩码注意力），使查询特征可学习，并去除了dropout以使计算更加有效（第3.2.3节）。值得注意的是，出于可读性考虑，本图中省略了位置嵌入和中间Transformer解码器层的预测。

3.2.1.掩码注意力

上下文特征在图像分割中被证明是重要的[7,8,63]。然而，最近的研究[22,46]表明，基于Transformer的模型收敛缓慢是由于交叉注意力层中的全局上下文，因为它需要很多训练时期才能学习到注意到局部对象区域[46]。我们假设局部特征足以更新查询特征，并且通过自注意力可以收集上下文信息。为此，我们提出了掩码注意力，它是交叉注意力的一种变体，每个查询只在预测掩码的前景区域内进行注意。标准的交叉注意力（带有残差路径）计算

3.2.2.高分辨率特征

高分辨率特征可以提高模型性能，特别是对于小物体[5]。然而，这需要大量的计算资源。因此，我们提出了一种高效的多尺度策略，在控制计算量增加的同时引入高分辨率特征。我们不是始终使用高分辨率的特征图，而是利用一个特征金字塔，其中包括低分辨率和高分辨率的特征，并且每次将一个尺度的多尺度特征馈送到一个Transformer解码器层中。具体而言，我们使用像素解码器产生的特征金字塔，分辨率分别为原始图像的1/32、1/16和1/8。对于每个分辨率，我们添加了一个正弦位置嵌入epos，大小为RHlWl⇥C，按照[5]的方法，以及一个可学习的尺度级别嵌入elvl，大小为R1⇥C，按照[66]的方法。从最低分辨率到最高分辨率，我们为相应的Transformer解码器层使用这些嵌入，如图2左侧所示。我们重复这个三层的Transformer解码器L次。因此，我们最终的Transformer解码器有3L层。具体而言，前三层接收分辨率为H1=H/32、H2=H/16、H3=H/8和W1=W/32、W2=W/16、W3=W/8的特征图，其中H和W是原始图像的分辨率。这个模式以循环方式在所有后续层中重复。

3.2.3.优化改进

一个标准的Transformer解码器层[51]由三个模块组成，按照以下顺序处理查询特征：自注意力模块、交叉注意力和前馈网络（FFN）。此外，在将查询特征（X0）馈送到Transformer解码器之前，它们被初始化为零，并与可学习的位置嵌入相关联。此外，对残差连接和注意力图都应用了dropout。

为了优化Transformer解码器的设计，我们进行了以下三个改进。首先，我们交换了自注意力和交叉注意力的顺序（我们的新“掩码注意力”），使计算更加有效：第一层自注意力的查询特征与图像无关，没有来自图像的信号，因此应用自注意力不太可能丰富信息。其次，我们也使查询特征（X0）可学习（仍然保留可学习的查询位置嵌入），并且在将其用于预测掩码（M0）之前，直接对可学习的查询特征进行监督。我们发现这些可学习的查询特征起到了区域提议网络[43]的作用，能够生成掩码提议。最后，我们发现dropout并不是必要的，通常会降低性能。因此，我们在解码器中完全取消了dropout。

3.3提高训练效率

训练通用架构的一个限制是由于高分辨率掩码预测而导致的大量内存消耗，使得它们比更友好的内存专用架构[6, 24]难以使用。例如，Mask2Former [14]只能在具有32G内存的GPU上容纳一张图像。受PointRend [30]和Implicit PointRend [13]的启发，这两种方法展示了可以通过对K个随机采样点而不是整个掩码计算掩码损失来训练分割模型。我们在匹配和最终损失计算中都使用采样点来计算掩码损失。具体而言，在用于二分匹配的匹配损失中，我们对所有预测和真实掩码均均匀采样相同的K个点。在预测和匹配的真实掩码之间的最终损失中，我们使用重要性采样[30]对不同的预测和真实掩码对采样不同的K个点。我们设置K = 12544，即112 × 112个点。这种新的训练策略有效地将训练内存减少了3倍，从每张图像的18GB减少到6GB，使得Mask2Former更适用于计算资源有限的用户。

4.实验

我们通过与专门的最先进架构在标准基准测试上的比较，证明了Mask2Former是一种有效的通用图像分割架构。我们通过对所有三个任务的消融实验评估了我们提出的设计决策。最后，我们展示了Mask2Former在标准基准之外具有广泛的泛化能力，在四个数据集上获得了最先进的结果。

数据集。我们使用四个广泛使用的图像分割数据集来研究Mask2Former，支持语义、实例和全景分割：COCO [35]（80个“物体”和53个“背景”类别）、ADE20K [65]（100个“物体”和50个“背景”类别）、Cityscapes [16]（8个“物体”和11个“背景”类别）和Mapillary Vistas [42]（37个“物体”和28个“背景”类别）。全景和语义分割任务在“物体”和“背景”类别的并集上进行评估，而实例分割仅在“物体”类别上进行评估。

评估指标。对于全景分割，我们使用标准的PQ（全景质量）指标[28]。我们进一步报告了APTh pan，这是在使用实例分割注释的“物体”类别上评估的AP，以及mIoU pan，这是仅使用全景分割注释训练的模型在语义分割上的mIoU，通过合并同一类别的实例蒙版得到。对于实例分割，我们使用标准的AP（平均精度）指标[35]。对于语义分割，我们使用mIoU（交并比的平均值）指标[19]。

表1. 在具有133个类别的COCO panoptic val2017上的全景分割结果。Mask2Former在所有指标上都显著优于Mask Former [14]，并且在不同的骨干网络上保持一致。我们的最佳模型在PQ上优于之前最先进的MaskFormer 5.1个PQ，优于K-Net [62] 3.2个PQ。在ImageNet-22K上预训练的骨干网络用†标记。

4.1.实现细节

我们采用了[14]中的设置，但有以下几点不同之处：

像素解码器。Mask2Former与任何现有的像素解码器模块兼容。在MaskFormer [14]中，选择了FPN（Feature Pyramid Network） [33]作为默认的解码器，因为它简单易用。由于我们的目标是在不同的分割任务中展示出强大的性能，我们使用更先进的多尺度可变形注意力Transformer (MSDeformAttn)[66]作为默认的像素解码器。具体而言，我们使用6个应用于分辨率为1/8、1/16和1/32的特征图的MSDeformAttn层，并在最终的1/8特征图上使用带有侧连接的简单上采样层来生成分辨率为1/4的特征图作为每个像素的嵌入。在我们的消融研究中，我们展示了这个像素解码器在不同的分割任务中提供了最佳的结果。

Transformer解码器。我们使用在第3.2节中提出的Transformer解码器，默认情况下使用L=3（即总共9层）和100个查询。在每个中间的Transformer解码器层和Transformer解码器之前的可学习查询特征上添加了辅助损失。

损失权重。我们使用二元交叉熵损失（而不是[14]中的焦点损失[34]）和Dice损失[41]作为我们的掩码损失：Lmask = ceLce + diceLdice。我们将!ce设置为5.0，将!dice设置为5.0。最终的损失是掩码损失和分类损失的组合：Lmask + !clsLcls，我们将!cls设置为2.0，用于与真实值匹配的预测，将其设置为0.1，用于“无对象”，即与任何真实值都不匹配的预测。

后处理。我们使用与[14]完全相同的后处理方法，以从二进制掩码和类别预测的配对中获取全景和语义分割的预期输出格式。实例分割需要每个预测的额外置信度分数。我们将类别置信度和掩码置信度（即平均前景每像素二进制掩码概率）相乘，得到最终的置信度。

4.2.训练设置

全景和实例分割。我们使用Detec tron2 [57]并遵循基于更新的Mask R-CNN [24]基线设置1来处理COCO数据集。具体而言，我们使用AdamW [38]优化器和步进学习率调度。我们对所有主干网络使用初始学习率为0.0001和权重衰减为0.05。主干网络的学习率乘法器为0.1，并且我们通过10的倍数将学习率在总训练步数的0.9和0.95分数处进行衰减。如果没有另外说明，我们使用批量大小为16，在50个时期内训练我们的模型。对于数据增强，我们使用大规模抖动（LSJ）增强[18,23]，随机从范围0.1到2.0中采样一个随机尺度，然后进行固定大小的裁剪到1024x1024。我们使用标准的Mask R-CNN推理设置，将图像的较短边调整为800，并将较长边调整为最多1333。我们还报告了FLOPs和fps。FLOPs是在100个验证图像上平均计算的（COCO图像的大小各不相同）。每秒帧数（fps）是在V100 GPU上以批量大小为1的情况下测量的，通过取整个验证集上的平均运行时间，包括后处理时间。

语义分割。我们遵循与[14]相同的设置来训练我们的模型，除了以下两点：

1）将学习率乘子0.1应用于CNN和Transformer主干网络，而不仅仅是应用于[14]中的CNN主干网络；

2）ResNet和Swin主干网络均使用初始学习率为0.0001和权重衰减为0.05，而不是在[14]中使用不同的学习率。

表2.在COCO val2017上进行80个类别的实例分割。当使用少8倍的时期进行训练时，Mask2Former在AP和APboundary [12]度量方面均优于强大的Mask R-CNN [24]基线。我们的最佳模型在COCO上也与最先进的专用实例分割模型竞争，并具有更高的边界质量。为了公平比较，我们仅考虑单尺度推理和仅使用COCO train2017数据集训练的模型。在ImageNet-22K上预训练的主干网络用†标记。

4.3.主要结果

全景分割。我们在表1中将Mask2Former与COCO全景[28]数据集上的最先进模型进行了比较。在不同的主干网络上，Mask2Former始终比MaskFormer高出5个以上的PQ，并且收敛速度快6倍。使用Swin-L主干网络，我们的Mask2Former在PQ上取得了57.8的新最优结果，超过了现有的最先进模型[14]的5.1 PQ和与之并行的K-Net [62]的3.2 PQ。Mask2Former甚至在COCO挑战赛中超过了使用额外训练数据的最佳集成模型（有关测试集结果，请参见附录A.1）。除了PQ指标之外，与DETR [5]和MaskFormer相比，我们的Mask2Former在另外两个指标上也取得了更高的性能：APTh pan Th pan，这是在80个“物体”类别上使用实例分割注释评估的AP，以及mIoUpan，这是在从全景分割注释转换而来的语义分割的133个类别上评估的mIoU。这显示了Mask2Former的通用性：仅使用全景分割注释进行训练，它可以用于实例和语义分割。

实例分割。我们在COCO [35]数据集的表2中将Mask2Former与最先进的模型进行了比较。使用ResNet [25]主干网络，Mask2Former在使用大规模抖动（LSJ）增强[18,23]的情况下，与强大的Mask R-CNN [24]基线相比取得了更好的性能，同时需要少8倍的训练迭代次数。使用Swin-L主干网络，Mask2Former的性能超过了最先进的HTC++[6]。尽管我们只观察到对HTC++的AP改进为+0.6，但边界AP [12]提高了2.1，这表明我们的预测由于高分辨率的遮罩预测具有更好的边界质量。需要注意的是，为了公平比较，我们仅考虑单尺度推理和仅使用COCO train2017数据集训练的模型。

使用ResNet-50主干网络，Mask2Former在小对象上相比于MaskFormer提高了7.0 APS，而在所有对象上最大的增益来自大对象（+10.6 APL（Average Precision of Localization））。在APS（Average Precision with multiple scales）上的性能仍然落后于其他最先进的模型。因此，在小对象上仍有改进的空间，例如使用像DETR（Detection Transformer） [5]中的扩张主干网络，这是我们留给未来的工作。

语义分割。我们在ADE20K [65]数据集的表3中将Mask2Former与最先进的模型进行了比较。Mask2Former在不同的主干网络上优于MaskFormer [14]，这表明所提出的改进甚至可以提升已经是最先进的[14]的语义分割结果。使用Swin-L作为主干网络和FaPN [39]作为像素解码器，Mask2Former在mIoU上取得了57.7的新最优结果。我们还在附录A.3中报告了测试集的结果。

表3.在ADE20K val数据集上进行150个类别的语义分割。Mask2Former在使用不同的主干网络时始终大幅优于MaskFormer [14]（所有Mask2Former模型使用MSDeformAttn [66]作为像素解码器，除了Swin-L-FaPN使用FaPN [39]）。我们的最佳模型优于最先进的专用模型BEiT [2]。我们报告了单尺度（s.s.）和多尺度（m.s.）推理结果。在ImageNet-22K上预训练的主干网络用†标记。

4.4.消融研究

我们现在使用ResNet-50主干网络[25]对Mask2Former进行一系列消融研究。为了测试所提出的组件对通用图像分割的普适性，所有的消融实验都在三个任务上进行。

Transformer解码器。我们通过逐个移除每个组件来验证它们的重要性。如表4a所示，遮蔽注意力在所有任务中都带来了最大的改进。对于实例分割和全景分割，改进效果比语义分割更大。此外，使用来自高效多尺度策略的高分辨率特征也很重要。表4b显示，额外的优化改进进一步提高了性能，而无需额外的计算。

遮蔽注意力。同时进行的工作提出了其他的交叉注意力变体[22,40]，旨在改善DETR [5]在目标检测中的收敛性和性能。最近，K-Net [62]用一个遮蔽池化操作代替了交叉注意力，该操作对遮罩区域内的特征进行平均。我们在表4c中验证了我们的遮蔽注意力的重要性。虽然现有的交叉注意力变体可能在特定任务上有所改进，但我们的遮蔽注意力在所有三个任务上表现最好。

特征分辨率。表4d显示，在Transformer解码器中使用高分辨率特征（例如1/8的单尺度）对Mask2Former有益。然而，这会引入额外的计算量。我们的高效多尺度（efficient m.s.）策略在不影响性能的情况下有效地减少了FLOPs。需要注意的是，简单地将多尺度特征串联作为每个Transformer解码器层的输入（naive m.s.）并不会带来额外的增益。

像素解码器。如表4e所示，Mask2Former与任何现有的像素解码器兼容。然而，我们观察到不同的像素解码器在不同的任务上表现出专长：BiFPN [47]在实例级分割上表现更好，而FaPN [39]在语义分割上表现更好。在所有研究的像素解码器中，MSDeformAttn [66]在所有任务中始终表现最好，因此被选为我们的默认选择。这一系列的消融实验还表明，为特定任务设计像素解码器这样的模块并不能保证在分割任务之间的泛化性。作为一个通用模型，Mask2Former可以作为一个可泛化模块设计的测试平台。

基于掩码或采样点计算损失。在表5中，我们研究了基于掩码或采样点计算损失时的性能和内存影响。使用采样点计算最终的训练损失可以减少训练内存3倍，而不影响性能。此外，使用采样点计算匹配损失可以提高所有三个任务的性能。

可学习的查询作为区域提议。区域提议[1,50]，无论是以框的形式还是掩码的形式，都是可能是“对象”的区域。通过由掩码损失进行监督的可学习查询，可学习查询的预测结果可以作为掩码提议。在图3的顶部，我们可视化了在将它们输入到Transformer解码器之前所选的可学习查询的掩码预测（提议生成过程在图3的右下角显示）。在图3的左下角，我们通过在COCO val2017上计算100个预测的类别无关平均召回率（AR@100）对这些提议的质量进行了定量分析。我们发现，与Transformer解码器层（即第9层）之后的Mask2Former的最终预测相比，这些可学习查询已经实现了良好的AR@100，并且随着更多的解码器层，AR@100持续提高。

表4.Mask2Former消融实验。我们在三个任务上进行了消融实验：实例分割（在COCO val2017上的AP），全景分割（在COCO全景val2017上的PQ）和语义分割（在ADE20K val上的mIoU）。FLOPs是在COCO实例分割数据集上进行测量的。

(a) 遮蔽注意力和高分辨率特征（来自高效多尺度策略）带来了最大的增益。更详细的消融实验结果见表4c和表4d。我们逐个移除每个组件进行实验。

(b) 优化改进可以提高性能，而不引入额外的计算量。在不可学习时，按照DETR [5]的做法，将查询特征初始化为零。我们逐个移除每个组件进行实验。

(d) 特征分辨率。高分辨率特征（单尺度1/8）是重要的。我们的高效多尺度策略可以有效地减少FLOPs。

(e) 像素解码器。MSDeformAttn [66]在所有任务中始终表现最好。

表5. 使用点和掩码计算损失。使用点损失进行训练可以减少训练内存，而不影响性能。使用点损失进行匹配进一步提高性能。

图3. 可学习的查询作为“区域提议”。

顶部：我们可视化了四个选定的可学习查询的掩码预测，在将它们输入到Transformer解码器之前（使用R50骨架）。

左下方：我们计算了100个提议的类别无关平均召回率（AR@100），观察到与Transformer解码器层（第9层）之后的Mask2Former的最终预测相比，这些可学习查询提供了良好的提议。

右下方：提议生成过程的示意图。

表6. Cityscapes验证集。Mask2Former在Cityscapes数据集上与专用模型相比具有竞争力。全景分割模型默认使用单尺度推理，多尺度的结果用⇤标记。对于语义分割，我们报告了单尺度（s.s.）和多尺度（m.s.）推理的结果。在ImageNet-22K上预训练的主干网络用†标记。

4.5.泛化到其他数据集

为了展示我们的Mask2Former在COCO数据集之外也可以推广，我们进一步在其他流行的图像分割数据集上进行了实验。在表6中，我们展示了在Cityscapes [16]数据集上的结果。请参阅附录B，了解每个数据集的详细训练设置以及在ADE20K [65]和Mapillary Vistas [42]上的更多结果。

我们观察到我们的Mask2Former在这些数据集上与最先进的方法相比具有竞争力。这表明Mask2Former可以作为通用的图像分割模型，并且其结果可以在不同的数据集上推广。

表7. Mask2Former的局限性。虽然单个Mask2Former可以处理任何分割任务，但我们仍然需要在不同的任务上进行训练。在三个数据集上，我们发现使用全景注释训练的Mask2Former的性能略低于针对实例分割和语义分割任务专门训练的完全相同的模型，并使用相应的数据进行训练。

4.6.限制

我们的最终目标是训练一个单一模型来处理所有的图像分割任务。在表7中，我们发现仅使用全景分割进行训练的Mask2Former的性能略低于使用相应注释训练的完全相同模型在实例分割和语义分割任务上的性能，这跨越了三个数据集。这表明，尽管Mask2Former可以推广到不同的任务，但仍需要针对这些特定任务进行训练。在未来，我们希望开发一个仅需训练一次即可适用于多个任务甚至多个数据集的模型。此外，正如表2和表4d所示，尽管Mask2Former相对于基准模型有所改进，但在分割小目标方面仍存在困难，并且无法充分利用多尺度特征。我们认为更好地利用特征金字塔并为小目标设计损失是至关重要的。

5.总结

我们提出了用于通用图像分割的Mask2Former。借助于一个简单的元框架[14]，采用了新的Transformer解码器和提出的掩码注意力机制，Mask2Former在四个流行数据集上的三个主要图像分割任务（全景分割、实例分割和语义分割）中取得了顶级结果，甚至超过了为每个基准任务设计的最佳专用模型，同时训练也更加简便。与为每个任务设计专用模型相比，Mask2Former节省了3倍的研究工作，并且对于计算资源有限的用户来说也更容易使用。我们希望能引起人们对通用模型设计的兴趣。

伦理考虑：虽然我们的技术创新似乎没有任何固有的偏见，但是通过我们的方法在真实世界的数据集上训练的模型应该经过伦理审查，以确保预测结果不会传播问题陈规，并且该方法不用于包括但不限于非法监视在内的应用。