【论文阅读】Maskformer：Per-Pixel Classification is Not All You Need for Semantic Segmentation

Jiazhou_garland

已于 2022-11-24 15:46:03 修改

阅读量2.7k

点赞数 3

文章标签：深度学习人工智能

于 2022-11-07 12:23:02 首次发布

本文链接：https://blog.csdn.net/qq_43019433/article/details/127635386

版权

一、引言：像素级分类v.s.掩膜分类：

分割领域有两个大框架，一方面是像素级分类（per-pixel classification）统治语义分割领域，另一方面是以Mask-FCN为首的掩膜分类（mask classification）统治实例分割、全景分割领域。

像素级分类（per-pixel classification）：分类损失应用于每个输出像素，将预测图像划分为不同类别的区域；
掩膜分类（mask classification）：基于mask的方法不对每个像素进行分类，而是预测一组二进制掩码，每个掩预测一个单一的类别。

参考资料：作者知乎亲自写的简介、《MaskFormer：使用Mask分类实现语义分割》
在这里插入图片描述
MaskFormer的结构如上图所示，主要可以分为三个部分：

pixel-level module：用来提取每个像素embedding（灰色背景部分）
transformer module：用来计算N个segment的embedding（绿色背景部分）
segmentation module：根据上面的per-pixel embedding和per-segment embedding，生成预测结果。（蓝色背景部分）

这一部分从torch.nn.Transformer复制粘贴，具体实现在此，位置编码实现在此，并进行以下修改：

即实现了下图所示部分：
在这里插入图片描述
参数细节：

在看了源代码之后，怀疑这里图画错了，分类这里直接用的transformer module产出特征图，并没有过MLP。
鉴于自己水平不高，另有高见的朋友麻烦告诉我一下。

 # hs是transformer module出来的特征，维度大小是[batche_size, queries, embed]
if self.mask_classification