论文笔记-Conditional Convolutions for Instance Segmentation

最新推荐文章于 2022-01-02 17:47:20 发布

kingsleyluoxin

最新推荐文章于 2022-01-02 17:47:20 发布

阅读量695

点赞数

分类专栏：计算机视觉论文笔记深度学习文章标签： python 计算机视觉机器学习人工智能

本文链接：https://blog.csdn.net/kingsleyluoxin/article/details/108038659

版权

论文笔记同时被 3 个专栏收录

61 篇文章 1 订阅

订阅专栏

深度学习

57 篇文章 2 订阅

订阅专栏

计算机视觉

56 篇文章 4 订阅

订阅专栏

论文信息
- 标题： Conditional Convolutions for Instance Segmentation
- 作者：Zhi Tian, Chunhua Shen, Hao Chen
- 机构：The University of Adelaide, Australia
- 出处：ECCV 2020
代码链接
- https://git.io/AdelaiDet
论文主要贡献
- 从新的视角解决实例分割问题，提出 CondInst 实例分割网络，改进了当前的实例分割方法的性能，同时达到更快的推理速度
- CondInst 是全卷积的，避免了对 ROI 的重剪裁的操作，由于 CondInst 不依赖于 ROI 操作，使得生成结果分辨率更高
- 掩膜头部的滤波器是动态生成的，学习成本不高且推理速度快
- 本文提出的网络训练计划不长，能够在更短时间进行推理，同时达到更好的性能
关键问题思考
- 这篇论文最主要的创意或者闪光点是什么？
- 这些创意在应用上有什么好处？
- 这些创意和应用上的好处是在哪些条件下才能成立？
- 还能从另一个角度去探讨吗？
- 这篇论文最主要的缺点或局限是什么？
- 这些缺点或局限在应用上有什么坏处？
- 这些缺点和应用上的坏处是因为哪些因素引入的？
- 我们能克服吗？如何克服？
- 这篇论文的哪些部分（点子）值得参考？
- 对自己的研究，有哪些指导意义和启示？
论文要点翻译
- 摘要
  - 本文提出了简单有效的实例分割框架——CondInst，即用于实例分割的条件卷积，当前的最好的实例分割方法依赖于 ROI 操作（例如 ROIPool 或者 ROIAlign）去获取最终的实例掩膜，与这些方法不同，本文提出新的解决实例分割问题的视角
  - 原本的方法将实例级的 ROI 作为固定权重网络的输入，本文则使用动态的实例级的网络，该网络以实例为条件
  - CondInst 主要有两个优势：（1）通过全卷积网络解决实例分割问题，避免 ROI 的裁剪和特征的对齐；（2）由于动态生成的条件卷积性能得到大幅度提升，掩膜头部可以压缩到非常小（比如只用三个卷积层，每个卷积层只有 8 个通道），这极大提高了推理速度
  - 本文提出的方法更为简单但是却在精度和推理速度上得到提升，在 COCO 数据集上的结果显示，提出方法不用长时间训练也可以得到比经典的 Mask-R-CNN 基准线方法更好的性能
- 引言
  - 实例分割是计算机视觉领域重要又极具挑战的基础问题，需要算法预测像素级的类别标签去将图像中的每个感兴趣的物体实例进行掩膜
  - 之前的方法主要是两阶段的 Mask R-CNN 方法，将实例分割作为两个阶段的检测和分割任务进行解决。Mask R-CNN 首先使用目标检测器 Faster R-CNN 预测每个实例的边界框；然后再针对每个实例，使用 ROIAlign 操作从网络的特征图中剪裁感兴趣区域 ROI，最后应用压缩的全卷积网络作用域这些 ROI 上，进行前景或背景的分割，预测得到每个实例的掩膜
  - 但是，这样的基于 ROI 的方法主要有以下局限：（1）ROI 是基于坐标轴的边界框，对于不规则形状的物体来说，可能会包含许多跟该实例无关的背景或者其他实例，这个问题可以通过使用旋转的 ROI 进行一定程度的解决，但是会造成更大的计算代价；（2）为了准确的判断每个 ROI 中的前景和背景区域，建模头部需要相对较大的感受野捕获足够大的上下文信息，因此常用堆叠的 3x3 卷积进行操作，增加了掩膜头部的计算开销，导致推理时间的由于包含实例的不同而显著变化；（3）ROI 通常大小不同，为了有效的进行批量计算，resize 操作用于将裁剪区域变为相同大小的，例如 Mask R-CNN 将所有裁剪区域变为 14X14 （使用 deconv 上采样到 28x28），这限制了输出实例分割图的分辨率，因为大的实例需要更高的分辨率来恢复边界细节信息
  - 在计算机视觉领域，与实例分割最接近的任务是语义分割，语义分割使用全卷积网络已经获得显著的成功，不管是低级的图像去噪、超分辨率任务，中级的光流估计，还是高级的目标检测、深度估计等任务，全卷积网络已经在许多像素级预测任务中获得较好的性能，但是当前的全卷积的实例分割方法性能却远远低于基于 ROI 的方法，实例分割中运用全卷积网络的主要困难在于相似图像的外观在实例分割中需要预测为不同结果，但是这对于全卷积网络来说是比较困难的，例如：两个人 A 和 B 在输入图像中具有相似的外观，预测 A 的实例掩膜的时候，FCN 需要将 B 预测为背景，这就比较困难了，因为网络通常会将相似外观的部分作相似的处理
  - 简言之，实例分割需要两种有效信息：（1）外观信息用于将物体进行分类；（2）位置信息用于区别同一类别的不同物体实例的信息，基于 ROI 剪裁的方法则通常可以显示地将实例的位置信息进行编码
  - 与之前方法不同，CondInst 使用实例敏感的卷积滤波器探索未知信息，同时探索相对坐标关系用于特征图上
  - 提出的实例敏感的 FCN 用于实例分割，网络将标准的卷积网络换成了一系列固定的卷积滤波器，一次作为预测所有实例的掩膜头，网络参数根据预测的实例进行调整
  - 收到动态滤波网络的和条件卷积的启发，本文使用受控的自网络动态的生成每个实例的 mask-FCN 网络参数，然后用这些参数去预测实例的掩膜
  - 网络参数能够编码诸如相对位置信息、形状和外观等的信息，并将编码的统计信息只在实例对应的像素区域上激活；条件掩膜再作用到整个特征图中，这避免了对 ROI 操作的需要
  - 实验结果证明，本文提出的非常精简的 FCN 网络头可以动态生成滤波器，比之前的基于 ROI 的 Mask R-CNN 方法性能更好，计算复杂性也更低
- 相关工作
  - 条件卷积：【41】提高分类网络的能力，生成动态滤波器的网络【20】
    - 实例分割：主要的 Mask R-CNN 方法；YOLACT；AdaptIS
- 方法
  - 给定输入图像 $\in \mathbb{R}^{R \times H \times 3}$ ，实例分割的目标在于预测每个像素的掩膜以及每个感兴趣的物体实例的位置信息，真实值被表示为 ${(M_i,c_i)\}$ ， $M_i \in \{0,1\}^{H\times W}$ 表示第 i 个实例的掩膜， $c_i \in \{1,2,...,C\}$ 表示所属类别的编号
  - 语义分割只需要预测输入图像的一个掩膜，而实例分割需要预测可变的掩膜，取决于图像中实例的格式，因此应用 FCN 解决实例分割问题困难较大
  - 本文核心思想在于：对于有 K 个实例的输入图像，生成 K 个不同的掩膜头，每个掩膜头包含对应的目标实例的统计信息的滤波器，因此，将掩膜头作用到目标输入图像后，只会在实例的对应像素上激活，进而得到实例的掩膜预测结果
  - Mask R-CNN 使用目标检测器预测输入图像中的实例的边界框，边界框是表现实例的方式，与之类似，CondInst 使用实例敏感的滤波器来表示实例，换言之，本文不是将实例信息表示为边界框，而是将实例信息隐式地编码为掩膜头的参数，这可以简单有效地将不规则形状进行表示
  - 与基于 ROI 的方法相似，实例敏感的滤波器可以通过目标检测器获取，本文基于目标检测器 FCOS 构建 CondInst 模型， FCOS 中没有使用 anchor-box，使得计算的参数数量和开销得到大幅减少，与 FCOS 相同，CondInst 使用特征金字塔网络中的 3-7 的特征图，降采样因子分别为8，16，32，64 和 128，在 FPN 的每个特征层添加一些功能层用于实例相关的预测：例如，目标实例的类别和动态生成的实例的滤波器，因此 CondInst 可以看作是与 Mask R-CNN 类似的网络
  - 除了检测器，还有掩膜预测分支，在这些分支中使用特征图，通过生成的掩膜头部预测最终的实例分割掩膜，特征图表示为 $F_{mask}\in \mathbb{R}^{H_{mask}\times W_{mask}\times C_{mask}}$ ，实例分割的分支是在 P3 层次的，因此输出分辨率是输入图像的 1/8，掩膜分支在最后一层之前有 4 个 3x3 的 128 通道卷积，最后一层将 128 通道降到掩膜数通道（本文中使用掩膜数为 8 时候获取的性能较好）
  - 原始的输出预测掩膜与 $F_{mask}$ 分辨率相同，也就是 1/8 分辨率，为了得到更高分辨率，本文使用双线性上采样用于扩大分辨率，得到 1/2 分辨率的掩膜预测结果
  - 网络输出与训练目标
    - 与 FCOS 相似，每个 FPN 中的特征图与对应的实例关联，关联的实例和标签的决定过程：特征图 $P_i\in \mathbb{R}^{H\times W \times C}$ ，s 是其下采样比例，特征图的 (x,y) 位置可以映射回原始输入图像的 $(\lfloor \frac s2 \rfloor+xs, \lfloor \frac s2 \rfloor + ys)$ 位置，如果映射的位置落在实例的中心区域，则该位置是和实例有关的，落在中心区域外的位置则被看作是负样本
    - 分类头：预测每个位置关联的实例的类别
    - 控制头：和分类头结构类似，预测掩膜头的参数，用于该位置的实例，这是本文的核心共现，为了预测参数，首先将所有滤波器的参数拼接为 N 维向量 $\theta_{x,y}$ ， N 是参数总数，对应的控制头的输出是 N 通道的，掩膜头是压缩的 FCN 网络，有 3 个 1x1 卷积，每个卷积 8 通道，使用 ReLU 作为激活函数，不适用 BN 等正则层，最后一个卷积层是 1 通道输出，结合 Sigmoid 函数，用于预测每个像素是前景像素的概览，所以掩膜头一共有 169 个参数（卷积的权重和偏置），生成的滤波器中会包含每个位置对应的实例的信息，只在特定实例对应的像素激活
    - 中心和Box 头：本文不需要使用框，但是如果使用基于框的 NMS ，则推理时间可以下降
  - 损失函数
    - $L_{overall}=L_{fcos}+\lambda L_{mask}$
    - $L_{fcos}$ 表示FCOS 中的 LOSS
    - $L_{mask}(\{\theta_{x,y}\})=\frac{1}{N_{pos}}\sum_{x,y}\mathbb{1}_{\{x_{x,y}^*>0\}}L_{dice}(MaskHead(\widetilde F_{x,y};\theta_{x,y}),M_{x,y}^*)$