《论文笔记》——Multi-Miner: Object-Adaptive Region Mining for Weakly-Supervised SemanticSegmentation

最新推荐文章于 2024-07-22 16:24:23 发布

Shelby-Lee

最新推荐文章于 2024-07-22 16:24:23 发布

阅读量760

点赞数

文章标签：论文阅读计算机视觉人工智能

本文链接：https://blog.csdn.net/qq_46676829/article/details/126973068

版权

摘要：对象区域挖掘是弱监督语义分割的关键步骤。最近的方法：最新的方法通过扩展由类激活映射所定位的种子区域来挖掘对象区域。缺点：他们通常不考虑对象的大小，采用一种单调的程序来挖掘所有的对象区域。因此，对于大型物体，其挖掘区域往往数量和规模不足，而对于小型物体，又容易受到周围背景的污染。我们提出了multi-miner框架。具体来说，我们的multi-miner利用一个并行调制器来检查每个单一对象是否有剩余的对象区域，并引导类别感知生成器独立地挖掘每个对象的区域。通过这种方式， multi-miner适应地对大对象执行更多的步骤，对小对象执行更少的步骤。

介绍：带有图像级监督的弱监督语义分割被广泛研究，以缓解像素级注释的稀缺。对象区域挖掘是近年来弱监督语义分割方法的关键步骤，其目的是扩展由类激活映射本地化的稀疏种子对象区域。在现有的弱监督语义分割方法中，所有对象的区域都是用一种单调的方式挖掘的，使用预先固定的擦除步骤或随机选择的隐藏单元。但是，由于不同图像中不同对象的对象区域大小不同，区域挖掘的最优步数也不同。可以观察到，现有方法的挖掘区域在数量和规模上往往不足，对于较大的物体，对于较小的物体容易受到周围背景的污染。

在本文中，我们提出了一个新的multi-miner框架，它可以执行一个完全适应于每个单一对象的区域挖掘过程。如图1所示，我们的方法对不同的对象自适应地采取不同的区域挖掘步骤，从而比现有方法提供了更完整、更精细的区域挖掘结果。

图1：(a)由我们的multi-miner执行的对象自适应区域挖掘。我们的方法自适应地对大对象采取更多的步骤，对小对象采取更少的步骤。(b)我们的方法与以前的方法挖掘的区域与CAM[32]定位的原始种子区域的比较。我们的矿区更加完整和精细。用颜色看更好

这种对象级适应性的关键是，当挖掘对象的所有区域时，自动停止对对象的挖掘，并继续挖掘未完全挖掘区域的对象。为了实现这一点，我们利用了一个并行调制器，它可以简单地实现为一个多标签分类器，通过并行检查输入图像中每个对象是否有剩余的对象区域来控制区域挖掘过程。然后，调制器引导类别感知生成器继续或停止对每个对象的挖掘区域。直观地说，我们的multi-miner由多个并行的“region miners”组成，每个区域挖掘器为单个对象执行区域挖掘子过程。

在区域挖掘过程中，由于卷积层的叠加，无法保持输入图像的空间分辨率，不可避免地会包含一些背景。为了缓解这一问题，我们进一步提出了一个多规模的培训策略，以帮助我们的multi-miner逐步开采更细的区域。我们的动机是，小规模输入提供关于整个对象的全局信息，而大规模输入提供关于细节的信息。

如图2所示，随着输入图像尺度的增加，类别感知生成器挖掘的对象区域更小但更精细。因此，多矿器在早期步骤中粗略地挖掘对象，然后在后面的步骤中进一步挖掘剩余的小区域。在后面的步骤中挖掘的区域更小更细，包含更少的背景区域。

所做的贡献：1.我们提出了一个multi-miner模型，这是第一个完全适应不同对象的区域采矿过程模型。为我们的multi-miner提供了理论依据。

我们提出了一种多尺度训练策略，与multi-miner合作，逐步挖掘更精细的目标区域，并禁止背景被挖掘。

我们的方法：

Object-adaptive region mining：

multi-mine的结构如图3所示。它由三个部分组成:主干特征提取器、并行调制器和类别感知生成器。特征提取器用于提取输入图像的高级特征。

图3：multi-mine模型体系结构。类别感知生成器生成区域映射来挖掘对象区域。并行调制器通过执行多标签分类任务来控制整个区域挖掘过程。类别感知发生器和并行调制器都是通过调制器的损耗来训练的。为每个对象维护一个区域映射池，以存储所有的区域映射。

并行调制器的目的是通过检查每个图像的每个类别是否有剩余的对象区域来控制区域挖掘过程，这可以通过multi-label分类模型来精确实现。multi-label分类器实际上是多个独立的二进制分类器的组合，每个分类器对应一个语义类别。对于每个语义类别，如果还存在对象区域，分类器将根据区域连续识别对象。否则，分类器将无法识别该对象。可以利用该特性指导类别感知生成器继续或停止挖掘对象区域。类别感知生成器是完全卷积的。它的最后一层通道的数量等于所有可能的类别的数量，这样它就可以为图像中的每个单一类别生成一个区域映射。区域映射用于通过元素乘法挖掘输入图像中的目标区域;区域映射的像素值范围为[0,1]。在区域地图中，挖掘的区域具有低像素值。

Region mining procedure ：

multi-miner对不同的目标自适应地采取不同的区域挖掘步数。在每个步骤中，multi-miner通过以下三个阶段挖掘对象区域。第一：更新并行调制器以计算输入图像中所有语义类别的剩余对象区域。第二：在更新后的调制器的指导下，训练类别感知生成器继续或停止对每个语义类别的挖掘区域。第三，使用更新后的类别感知生成器生成区域映射。为了减少计算量，我们将区域映射应用于特征提取器的输出特征映射，而不是输入图像。

在第t个区域挖掘步骤的第一阶段，特征提取器接收I并输出特征映射F。我们从F中屏蔽之前挖掘的区域，得到FT:

表示基于元素的乘法，表示第τ次迭代生成的语义类j的区域图(τ = 1，···，t−1)。除非另有说明，极小化操作总是假设对每个单独的空间位置单独执行。

在Eqn。(1)我们在所有先前生成的特定类别区域地图的每个空间位置上采用最小化操作，原因有二。第一：一个类别的对象区域被视为其他类别的背景。因此，这种赢者通吃的合并策略避免了一个类别的对象区域被其他类别的区域映射覆盖。这确保了我们的multi-miner独立地挖掘所有语义类别的区域。第二：该策略禁止在不同步骤中挖掘区域的干扰。

我们通过最小化多标签分类损失来训练并行调制器。设Lcls(x)为输入为x时调制器的损耗，通过最小化来训练调制器：

优化方程式后 (2)，并行调制器将能够识别具有剩余区域的对象，而无法识别那些区域被完全挖掘的对象。

在第二阶段，我们训练类别感知生成器，以便它可以根据是否有剩余的区域来继续或停止对每个对象的区域挖掘。

具体地说，类别感知生成器接受F t，并为类别j输出区域映射 M tj:

这里Htj是来自生成器最后一个卷积层的第j个通道的输出，除法是一个元素化操作，最大化和最小化在Htj的所有空间位置上进行，并且?取一个很小的值，为了计算稳定性而引入。

在Eqn。(3)我们使用归一化而不是Sigmoid激活，因为后者经常造成训练困难。然后我们进一步通过~ M tj对F t进行掩码，得到了~ F t:

然后我们将并联调制器的分类损失最大化，它的输入为￣F t。但对于生成器来说，可能有一个简单的解决方案，即生成一个遮蔽整个特征映射的区域映射。这样的区域映射实际上从输入图像中挖掘一切。为了避免这个问题，我们在挖掘区域的大小上增加了额外的正则化：

因此，训练类别感知生成器的总体损失是：

其中λ是一个权衡参数。由于我们通过最大化并行调制器的损耗来训练类别感知生成器，因此我们称调制器“引导”生成器挖掘区域。

对于一个给定的对象，如果在前面的步骤中没有完全挖掘它的区域，我们将让生成器生成一个区域映射，通过最小化Eqn.6来挖掘剩余的区域。如果没有对象区域，即并行调制器无法识别该对象，则优化过程中Eqn.6中的第二项起主导作用，因为第一项无法引导发生器更新。

最后，我们使用更新的类别感知生成器为图像I中的每个语义类别j生成区域映射，并将它们存储在对应的区域映射池中。

注意，这里M tj不同于~ M tj，因为M tj是由更新的生成器生成的，而~ M tj是为了训练生成器而生成的。

Training process：

我们首先使分类损失θe和θm / I最小化，得到初始特征提取器和并行调制器。然后，我们只更新θm和θg，保持θe固定，以提高计算效率。全区域region mining过程在表1中进行了总结。在所有区域region mining子过程停止后，对每个对象的所有区域映射进行合并，得到被挖掘的区域M f j：

Multi-scale training strategy：

由于卷积层的叠加降低了空间分辨率，在区域挖掘过程中不可避免地会包含一些背景区域，特别是目标区域周围的背景区域。为了缓解这一问题，我们提出了一种多尺度训练策略，逐步挖掘更精细的目标区域。

具体地说，我们从输入图像的小尺度，即低分辨率开始区域挖掘过程。这有助于我们的多矿器获得对象区域的整体信息，并挖掘对象的主要部分。然后，我们逐步提高输入图像的空间分辨率，使我们的多挖掘器可以逐步挖掘目标区域的细节。通过这种方式，区域地图变得越来越精细，背景也被保留了下来。但是，考虑到计算效率，空间分辨率的提高不可能没有任何约束。因此我们只使用一组K个不同的空间尺度。从第一个区域挖掘步骤到第k步，我们逐步提高输入图像的空间分辨率。从第k步开始，空间分辨率停止变化。

形式上，设S = {s1，···，sK |s1 <··< sK, K > 2}表示空间分辨率集。在第t步rt中输入图像的空间分辨率由：

注意，由于多尺度训练，在Eqn.(1)之前生成的部分区域图的空间分辨率低于特征图F。我们使用双线性插值对这些区域地图进行上采样，使它们具有与F相同的空间分辨率。

Connection with distribution mapping：

在本小节中，我们将揭示区域挖掘和分布映射之间的联系。有了这样的连接，我们就可以解释为什么我们的multi-miner能够执行自适应于每个单一对象的区域挖掘。

一个多类别的区域挖掘任务可以被重铸为前景和背景两个类别的多个二进制区域挖掘任务。在不丧失一般性的前提下，我们考虑二元区域挖掘任务。该任务的目标是从输入图像中挖掘所有前景区域，只留下图像中的背景区域。即二值区域挖掘，其目的是将同时包含前景和背景的图像的分布映射到只包含背景的图像的分布。

形式上，我们定义了两个原始分布:p0是只包含背景的图像的分布，p1是同时包含前景和背景的图像的分布。然后，区域挖掘的目的是找到映射M(·)s.t∀x∼p1, M(x)∼p0。

Shelby-Lee

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
《论文笔记》——Multi-Miner: Object-Adaptive Region Mining for Weakly-Supervised SemanticSegmentation

即二值区域挖掘，其目的是将同时包含前景和背景的图像的分布映射到只包含背景的图像的分布。执行的对象自适应区域挖掘。(b)我们的方法与以前的方法挖掘的区域与CAM[32]定位的原始种子区域的比较。可以观察到，现有方法的挖掘区域在数量和规模上往往不足，对于较大的物体，对于较小的物体容易受到周围背景的污染。形式上，我们定义了两个原始分布:p0是只包含背景的图像的分布，p1是同时包含前景和背景的图像的分布。它的最后一层通道的数量等于所有可能的类别的数量，这样它就可以为图像中的每个单一类别生成一个区域映射。
复制链接

扫一扫