Weakly Supervised Instance Segmentation using the Bounding Box Tightness Prior 论文笔记

最新推荐文章于 2022-09-13 20:16:18 发布

乄洛尘

最新推荐文章于 2022-09-13 20:16:18 发布

阅读量1.2k

点赞数 2

分类专栏：实例分割研究文章标签：实例分割研究

本文链接：https://blog.csdn.net/qq_38929105/article/details/119852781

版权

实例分割研究专栏收录该内容

7 篇文章 6 订阅

订阅专栏

Weakly Supervised Instance Segmentation using the Bounding Box Tightness Prior 论文笔记

一、摘要
二、引言
三、相关工作
四、方法
五、实验结果
六、Conclusion
写在后面

写在前面

这是第一篇实例分割的文章，而且是弱监督实例分割，预感未来的工作，弱监督或者无监督会是主流吧？

论文地址：Weakly Supervised Instance Segmentation using the Bounding Box Tightness Prior
代码地址：Github

收录于NeurlPS 2019

一、摘要

弱监督实例分割的主要难点在于：每一个BBOX内，没有任何信号监督框内不确定图形的分布。本文将这个难点视作多实例学习（ $\text{MIL}$ ）任务，并在每一个BBOX的扫线（纵横方向上的像素）下产生正负bags，从而解决该问题。本文提出的模型能够将 $\text{MIL}$ 整合到全监督实例分割网络中，其核心思想为“Unary term”和“Pairwise term”（一元 & 成组），前者评估每一个前景和背景区域，后者使得评估出的目标mask成一个整体。
数据集采用 $\text{PASCAL VOC}$ ，这个数据集类别少，效果好，搁在COCO数据集上就够呛。

二、引言

第一段讲述下实例分割的概念，第二段讲述一般实例分割的处理方法流程，点处了标注实例部分代价很大。因此第三段本文提出只采用BBOX标注的情况下进行实例分割。

[17] A. Khoreva, R. Benenson, J. Hosang, M. Hein, and B. Schiele. Simple does it: Weakly supervised instance and semantic segmentation. In CVPR, 2017.
[18] C. Rother, V. Kolmogorov, and A. Blake. GrabCut - Interactive foreground extraction using iterated graphcuts. TOG, 2004.
[19] J. Pont-Tuset, P. Arbelaez, J. Barron, F. Marques, and J. Malik. Multiscale combinatorial grouping for image segmentation and object proposal generation. TPAMI, 2017.

之前的文章（参考文献[17]）采用了参考文章[18、19]中的方法提前构建伪标签训练一个全监督网络，因此非端到端训练。
相比之下，作者将 $\text{MIL}$ 整合到全监督中，实现了端到端训练。由于在推理阶段不需要使用proposal，因此能够加速分割。
想法来源：参考文献[20]，09年的文章，真是好文章什么时候都不会过时。

[20] V. Lempitsky, P. Kohli, C. Rother, and T. Sharp. Image segmentation with a bounding box prior. In ICCV, 2009.

因为目标Instance会触及到BBOX的四条边，利用这点设计了 $\text{MIL}$ ，训练 $\text{MIL}$ 需要正负bags，正的bags为至少包含一个正Instance的bag，负的bags为至少包含一个负Instance的bag。如下图所示：
在这里插入图片描述
其中，黄色框中的横纵绿色线表示为正的bag，而在框外的红色线为负的bag，这些线在原图中对应的为一行或者一列像素。具体来说，正的bag：在一个BBOX内至少覆盖了Instance一个像素的线；负的bag：并未穿过BBOX的线都为负的bag。
本文的主要贡献：
1、通过 $\text{MIL}$ 来从BBOX推理目标，是第一个提出使用BBOX的端到端的弱监督实例分割算法；
2、能够同时得到像素级别的ground truth、目标实例特征表示、以及分割的模型；
3、采用 $\text{DenseCRF}$ 微调Instance mask，在 $\text{PASCAL VOC 2012}$ 数据集上的分数超过了现有的方法。

三、相关工作

3.1 Weakly supervised semantic segmentation

基于 $\text{CNNs}$ ，不同的弱监督标注，例如合成标注，BBOX标注，下标标注，点标注和图像级别的标注用于语义分割，本文采用BBOX标注用于实例分割（逼格高一级）。

3.2 Fully supervised instance segmentation.

主要是 $\text{Faster-RCNN、Mask-RCNN}$ 等。

3.3 Weakly supervised instance segmentation

利用BBOX、Image、Image Groups的标注进行实例分割。

四、方法

先给出整体预览，其次描述提出的 $\text{MIL}$ 方法，然后是网络优化器，最后是分割微调的细节部分。

4.1 Overview

在这里插入图片描述
训练数据： $\mathcal D={{\{}{I_{n},B_{n}}{\}}_{n=1}^{N}}$ ，其中 $N$ 为图像的数量， $I_{n}$ 为第 $n$ 张图像， $B_{n}$ 为 $I_{n}$ 的BBOX标注。假设 $I_{n}$ 包含 $K_{n}$ 个BBOX， $B_{n}={\{}{\text b}_n^{k},{\text y}_{n}^{k}{\}}_{k=1}^{K_{n}}$ ， ${\text b}_n^{k}$ 为第 $k$ 个向量的4维度位置向量表示， ${\text y}_{n}^{k}$ 为对应于BBOX的 $C$ 维度的种类表示， $C$ 为类别的数量。
在分割分支，首先评估每个检测到的BBOX的目标实例图，然后产生正负bags，通过 $\text{MIL}$ 的损失 $\mathcal L_{\text {mil}}$ 函数进行优化，最终的损失函数为：
${\mathcal L}(\text w)=\mathcal L_{\text {cls}}(\text w)+\mathcal L_{\text {reg}}(\text w)+\mathcal L_{\text {mil}}(\text w)$
其中， $\mathcal L_{\text {cls}}$ 为BOX分类损失， $\mathcal L_{\text {reg}}$ 为BOX回归损失， $\mathcal L_{\text {mil}}$ 为提出的 $M I L$ 损失。

3.2 Proposed MIL formulation

BBOX为目标Instance的最小外界矩形，因此可以利用到的两个属性：1、Instance一定会触及到BBOX的四条边；2、除了Instance，没有其他区域和BBOX有重叠部分，这两条属性将要用来构建正负bags。
对于每一个BBOX，由于穿过BBOX的线至少有一个像素落在Instance上，这样的线就组成了对应BBOX类别的bags。同理，若没有像素落在 Instance上，那么这样的线就组成了负的bags。
本文中，对于每一个BBOX，收集所有的在BBOX内的纵横线为正的bags，用符号表示一个正的bag： $\hat b^{+}={\{}{\text p_{i}}{\}}$ ， ${\{}{\text p_{i}}{\}}$ 为线上的第 $i$ 个像素。负的bags数量与正样本数量，为随机选取的靠近BBOX外侧的线，用符号表示一个负的bag： $\hat b^{-}={\{}{\text p_{i}}{\}}$ 。
至此，就可以用产生的bags数据来增强 $\mathcal D={{\{}{I_{n},B_{n}}{\}}_{n=1}^{N}}$ ，新的训练集为 $\hat \mathcal D={{\{}{I_{n},B_{n},\hat B_{n}}{\}}_{n=1}^{N}}$ ， $\hat B_{n}={\{}{{\hat \text b}_{n,k}^{+},{\hat \text b}_{n,k}^{-}{\}}_{k=1}^{K_{n}}}$ ，包含了所有在图像 $I_n$ 上的第 $k$ 个BBOX $\text b_n^k$ 所有正负bags。具体来说，正样本集合 $\hat B_{n,k}^{+}={\{}{\hat b_{n,k,l}^{+}}{\}_{l=1}^{H_{n,k}+W_{n,k}}}$ ， ${H_{n,k}+W_{n,k}}$ 为所有正的bags数量， ${H_{n,k},W_{n,k}}$ 为第 $k$ 个BBOX $\text b_n^{k}$ 的高宽。同理，负的bags为 $\hat B_{n,k}^{-}={\{}{\hat b_{n,k,l}^{-}}{\}_{l=1}^{H_{n,k}+W_{n,k}}}$ 。

3.3 MIL loss

对于每一个BBOX $\text b_n^{k}$ ，分割分支预测出的Instance得分图为 $S_{n, k} \in[0,1]^{W_{n, k} \times H_{n, k}}$ 。为了训练该分支，设计了损失函数基于 $\text{MIL}$ 的损失函数 $\mathcal L_{\text {mil}}$ 以及增强的bag数据 $\hat B^{+}~\&~\hat B^{-}$ 。 $\mathcal L_{\text {mil}}$ 定义为：
$\mathcal{L}_{\text {mil }}\left(S ; \hat{B}^{+}, \hat{B}^{-}\right)=\psi\left(S ; \hat{B}^{+}, \hat{B}^{-}\right)+\phi(S)$
其中，“Unary” $\psi$ 通过限制训练bags中的得分图 $S$ 中的 $\hat B^{+}~\&~\hat B^{-}$ 来启动 $\text{MIL}$ ，“Pairwise” $\phi$ 对 $S$ 施加结构化的限制来维持目标的整体性。具体来说：
Unary term：给予一组正负bags $\hat B^{+}~\&~\hat B^{-}$ ，“Unary” 强迫BBOX在预测图 $S$ 上收紧，同时也能够帮助预测出更好的masks。用公式表示为：
$\psi\left(S ; \hat{B}^{+}, \hat{B}^{-}\right)=\sum_{\hat{b} \in \hat{B}^{+}}-\log P(\hat{b})+\sum_{\hat{b} \in \hat{B}^{-}}-\log (1-P(\hat{b}))$
其中， $P(\hat{b})=\text {max}_{\text p \in \hat b}S(\text p)$ ，在不改变网络结果的情况下可以通过逐行/列的最大池化操作进行。
Pairwise term：
使用“Unary term”仅仅只能够分割出显著的部分而不是整个Instance，因此“Pairwise term”利用结构化的限制来强制预测出的Instance masks更加平滑。以这种方式，显著性区域的高分区域能够被投影到周围区域。用公式表示如下：
$\phi(S)=\sum_{\left(\mathbf{p}, \mathbf{p}^{\prime}\right) \in \varepsilon}\left\|S(\mathbf{p})-S\left(\mathbf{p}^{\prime}\right)\right\|^{2}$
其中 $\varepsilon$ 为包含所有邻域像素对的集合。
$\text{MIL}$ 的损失函数 $\mathcal L_{\text {mil}}$ 可微分且为凸函数，因此能够采用SGD优化。