MP-Former：基于掩码引导的Transformer用于图像分割_mp-former: mask-piloted transformer for image segm-CSDN博客

本文链接：https://blog.csdn.net/perfectzxiny/article/details/133856065

本文提出MP-Former，通过引入真实掩码指导Transformer模型改进Mask2Former的掩码注意力机制，有效解决不准确预测问题，提升了实例分割、全景分割和语义分割的性能，并证实了其在训练速度上的优势。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

Basic Information:
• Title: MP-Former: Mask-Piloted Transformer for Image Segmentation (MP-Former：基于掩码引导的Transformer用于图像分割)
• Authors: Hao Zhang, Feng Li, Huaizhe Xu, Shijia Huang, Shilong Liu, Lionel M. Ni, Lei Zhang
• Affiliation: The Hong Kong University of Science and Technology (香港科技大学)
• Keywords: image segmentation, Mask2Former, Transformer, mask-piloted training, performance improvement
• URLs: Paper, GitHub
论文简要 :
• 本文提出了一种基于掩码引导的Transformer模型，用于改进Mask2Former在图像分割中的掩码注意力机制。通过引入真实掩码作为引导，该方法有效地减轻了Mask2Former中不准确掩码预测的负面影响，并在实例分割、全景分割和语义分割三个任务上取得了显著的性能提升。
背景信息:
• 论文背景: 图像分割是计算机视觉中的一个基本问题，包括语义分割、实例分割和全景分割。过去的方法通常为每个任务设计专门的模型和优化目标，而通用模型在实例和语义分割上通常不如专门模型表现优秀。
• 过去方案: 过去的方法通常基于检测模型的边界框来预测掩码，如Mask R-CNN和HTC。而Transformer模型在图像分类和目标检测等任务中取得了巨大成功，但在图像分割中的应用仍处于初步尝试阶段。
• 论文的Motivation: 本文的动机是改进Mask2Former模型，该模型在每个解码器层中的掩码预测存在不一致性，导致优化目标不一致和解码器查询的低利用率。通过引入真实掩码作为引导，本文提出了一种基于掩码引导的训练方法，用于改善Mask2Former中的掩码注意力机制，并通过实验证明了其有效性。
方法:
• a. 理论背景:
o 本文介绍了图像分割问题及其不同的任务，包括语义分割、实例分割和全景分割。文章强调了现有模型的局限性以及Vision Transformers在计算机视觉任务中的成功。文章特别关注了基于Transformer的图像分割模型Mask2Former，并指出了其在连续解码器层之间不一致和不准确的掩码预测方面存在的缺点。文章提出了一种掩码引导训练方法来解决这个问题，该方法涉及在掩码注意力中输入真实掩码，并训练模型重构原始掩码。所提出的方法改善了Mask2Former在所有三个分割任务上的性能，并加快了训练速度。文章总结了所提出的训练方法、Mask2Former的失败模式分析以及所提出的MP-Former模型在多个数据集上的优越性能。
• b. 技术路线:
o MP-Former模型是Mask2Former的改进版本，由骨干网络、像素解码器和Transformer解码器组成。MP部分将真实掩码作为注意力掩码和真实类别嵌入作为查询输入到Transformer解码器中。在训练过程中，对真实掩码添加点噪声，对类别嵌入进行翻转噪声，以提高性能。在推理时，不使用MP部分，使得流程与Mask2Former相同。
结果:
• a. 详细的实验设置:
o MP-Former在COCO val2017数据集上的实例分割和全景分割任务上优于强基线Mask2Former。
o 对于实例分割任务，MP-Former在R50、R101和Swin-L骨干网络上实现了更高的平均精度（AP）。
o 对于全景分割任务，MP-Former在R50和R101骨干网络上实现了更高的全景质量（PQ）。
o MP-Former在性能上显著优于Mask2Former和传统方法如Mask R-CNN。
o MP-Former与训练更多轮次的Mask2Former相比，实现了可比的结果，证明了其在不牺牲性能的情况下能够加快训练速度。
• b. 详细的实验结果:
o 评估了方法的每个组成部分的有效性。在不添加噪声的情况下，该方法实现了+0.9AP的改进。通过多层MP训练，该方法实现了+1.5AP的改进。当训练50轮时，标签噪声没有起作用。
o 在多个层上应用真实掩码可以获得更好的性能。通过在所有层上添加噪声真实掩码，该方法实现了+0.8AP的改进。
o 对真实掩码添加不同类型的噪声显示出了不同的结果。平移和缩放噪声没有起作用，而点噪声实现了+0.3的额外增长。
o 超参数调整显示，粗到细的方式比在所有层中使用最大特征图更好。对于MP部分的查询，硬分配优于匹配。