Sequential Label Propagation and Enhancement Networks for Weakly Supervised Instance Segmentation

Abstract

弱监督实例分割的目的是在只给出图像级标签的情况下,精确地分割对象实例。不像以前的方法是由多个离线阶段组成,我们提出了序列化标签传播和增强网络(称为Label-PEnet),它以一种由粗到精的方式逐步地将图像级标签转换为像素级标签: 设计了多标签分类、目标检测、实例细化和实例分割四个级联模块,通过共享主干实现。通过课程学习策略交替地训练级联管道,该策略生成从高级别图像到低级别像素的标记,并逐渐提高准确性。此外,我们设计了一个提案校准模块来探索分类网络寻找关键像素来识别目标部件的能力,这是一个反向运行的后验证策略。在标准的基准:PASCAL VOC 2007和2012,我们评估我们的Label- PEnet实例分割的效率。实验结果表明,Label-PEnet算法的性能明显优于最先进的算法,并且与全监督算法的性能相当。

1.Introduction

深度卷积神经网络(CNNs)利用大规模人工标记数据进行训练,在计算机视觉领域取得了一系列突破。通过设计强大的网络结构,CNNs可以精确地检测目标位置并分割目标实例。然而,由于缺乏在对象级或像素级提供的强注释[27,7,12,43],即只有图像级标签时,对象检测或分割的性能将大幅下降。
为了研究仅在图像级监督下CNNs对像素级标签的估计能力,各种弱监督方法被用于目标检测或实例分割。许多方法[4,36,37]采用自底向上的方法将像素分组成建议,然后重复评估建议,以搜索精确的目标位置。有几种算法采用自顶向下[41,24]或自底向上的[42]方式对CNNs的分类过程进行剖析,目的是生成实例分割[43]。也有一些混合方法结合了自底向上和自顶向下的方式32,12]。
现有的弱监督方法虽然可以获得具有竞争力的结果,但其性能仍明显低于完全监督方法。虽然我们可以使用分类网络粗略地识别一个对象,但是从分类模型中精确地推断出像素级的标签是特别具有挑战性的,即使使用多种后处理方法也是如此。这启发我们重新思考CNNs在各种视觉任务中的能力,例如图像分类、对象检测和实例分割。我们注意到,充分的监督和准确的注释是成功的关键。因此,弱监督检测与分割的核心问题是通过设计多个级联模块,将图像级监督逐步平滑地转移到像素级标签上,由粗到细。
卷积核的二维结构使得CNN能够准确地把握局部信息,随着卷积层的增加,感受野的大小也逐渐增大,这使得CNN模型能够准确地记忆和分类对象。我们的目标是使CNNs能够通过提供图像级标签来分割对象。我们通过引入四个新的模块来设计具有这种能力的CNNs:(1)多标签分类模块,(2)对象检测模块、(3)实例细化模块、(4)实例分割模块,它们依次级联。
Multi-Label Classification Module. 在该模块中,首先将图像分割成若干块,生成一组对象建议。我们使用了一种无监督的方法,选择性搜索[38]或边缘框[44],其中像素是由低级统计数据组织来生成候选对象。然后结合一个分类分支和一个权重分支进行多标签分类。此外,我们提出一个提案校准模块,能够识别更准确的目标位置和预测目标提案中的像素级标签。
Object Detection Module. 生成的粗糙目标位置用于训练Faster-RCNN[30]。但我们实施的直接训练可能不稳定。因此,我们利用分类模块生成的目标分数来指导当前目标检测的训练,并在序列化学习中利用模型推断目标位置。同样地,我们对属于对应对象的像素进行提案标定,进一步提高了检测精度。
Instance Refinement Module. 使用生成的对象位置和实例mask,我们使用标准Mask-RCNN[17]执行实例分割。但是,当前的监督信息仍然不够准确,因此我们需要进一步使用检测模块生成的对象得分来指导当前实例分割的训练。此外,本文还设计了一个新的实例分支来执行实例分割,因为以前的实例mask是基于单个样本生成的,并且在作为监督时可以逐步纠正,提高准确性。
Instance Segmentation Module. 在这个模块中,我们从之前的模块中得到了较强的监督信息,它们被用来指导当前实例分割的训练和最终结果的产生。
这项工作的主要贡献总结如下:
首先,我们介绍了用于弱监督实例分割的序列化标签传播和增强网络(Label- penet)。我们的框架由四个级联的模块组成,这些模块对物体的外观进行重复的挖掘、总结和校正。为有效地训练Label-PEnet,提出了两阶段训练方案。这是利用CNNs从图像级到像素级识别目标的重要一步,从而提高弱监督实例分割的性能。
其次,我们提出一个提议校准模块来揭示CNNs的分类过程,然后从图像级和对象级监督中挖掘像素级标签。在这个模块中,我们探索了自顶向下和自底向上的方法,并将它们结合起来以提高识别目标像素的准确性。
第三,为了验证所提出的Label- penet的有效性,我们在标准基准上进行了实验:PASCAL VOC 2007和 PASCAL VOC 2012。实验结果表明,Label- penet的性能明显优于现有的方法,甚至可以与完全监督的方法相媲美。

2. Related work

简要回顾了弱监督目标检测与分割的相关研究,以及近年来神经的注意力的方法在课程学习中的应用。
Weakly-Supervised Object Detection and Segmentation. 弱监督目标检测与分割是一项非常有挑战性的工作,但对图像的理解非常重要。他们的目标是仅使用图像级标签定位和分割对象[27,7]。通常有三种方法:自底向上的方法、自顶向下的方法或两者的结合。例如,[27,10,9]中的方法将弱监督对象定位问题视为一个多标签分类问题,并使用特定的池化层来定位对象。另一方面,[4,36]中的方法使用选择性搜索[38]或边缘盒[44]从图像中提取和选择对象实例,处理多实例学习[8]的弱监督检测问题。[43]中的方法尝试在类激活映射中找到峰值,然后传播这些峰值来识别由MCG[28]生成的对应对象建议。在本文中,我们将实例分割任务分解成多个更简单的问题,并逐步利用CNNs的能力来识别目标像素。
Neural Attention. 神经的注意力的目的是了解CNNs的分类过程,学习输入图像中的像素与卷积层神经激活之间的关系。最近人们努力解释神经网络是如何工作的[41,2,24]。Lapuschkin等人在[24]中扩展了分层相关传播(layer-wise relevance propagation, LRP)[1],将深度神经网络固有的结构化推理可视化。为了识别产生最终分类结果的重要区域,Zhang等人[41]提出了一种正神经注意力反向传播方案,称为激励反向传播(Excitation BP)。其他相关方法包括Grad-CAM[34]和network dissection[2]。在一个训练有素的网络中,神经的注意力自顶向下使用图像级标签获得像素级的类概率。在我们的网络中,我们提出了一个向前网络,它为每个提议计算像素级的类概率图。这允许我们将图像级标签转换为像素级标签,为后续的对象检测和实例分割提供了更丰富的监督。
在这里插入图片描述
在这里插入图片描述
Curriculum Learning. 课程学习[3]是一套将复杂的学习任务分解为多个子任务,学习难度逐渐增加的机器学习方法。在[3]中,yo等人描述了课程学习的概念,并利用玩具分类问题来说明将复杂问题分解成多个简单问题的好处。各种机器学习算法[35,14]在课程学习中都遵循类似的分治策略。最近,Sheng等人提出了大规模弱监督图像分类。CurriculumNet能够从一个包含大量噪声图像和标签的图像数据集中学习高性能的CNNs,这些数据集是从互联网上原始收集的,没有任何人为注释[26]。本文采用该策略将实例分割问题分解为多标签图像分类、目标检测和实例分割。这些模块中所有的学习任务都比较简单,使用的是训练数据和之前阶段产生的细化标签。

3. Label-PEnet: Sequential Label Propagation and Enhancement Networks
3.1. Preliminary and Overview

给定一个与图像级标签 y I = [ y 1 , y 2 , . . . , y C ] T y_I=[y^1,y^2,...,y^C]^T yI=[y1,y2,...,yC]T关联的图像 I I I,我们的目标是对于每一个实例分割,去估计像素级的标签 Y I = [ y 1 , y 2 , . . . , y P ] T Y_I=[y_1,y_2,...,y_P]^T YI=[y1,y2,...,yP]T C \mathcal{C} C是对象类别的数量, P P P I I I的像素个数, y l y^l yl是二进制值,其中 y l = 1 y^l=1 yl=1表示图像 I I I包含着 l l l-th对象类别,反之, y l = 0 y^l=0 yl=0。像素p的标签由c维二进制向量 y p y_p yp表示。在这项工作中,我们提出了一个弱监督的学习方法,例如分割,这是受分治思想的课程学习[3]的启发。这使得我们的模型可以在越来越强的监督下进行训练,通过多标签分类模块、对象检测模块、实例细化模块和实例分割模块,将目标信息从图像级传递到像素级,实现自动学习。Figure 1描述了所提出的Label- PEnet。
在这里插入图片描述

3.2. Multiple Cascaded Modules

Multi-Label Classification Module. 该模块仅使用图像级类别标签,生成一组具有相应类置信度值和提议的权重的粗糙对象建议。为了识别对象的粗糙区域,我们利用选择性搜索[38]生成一组对象建议 R = ( R 1 , R 2 , … R n ) R = (R_1, R_2,…R_n) R=(R1,R2Rn)。然后将这些候选区域作为输入,输入到我们的多标签分类模块中,以更高的置信度收集建议,并学习识别在分类任务中起关键作用的像素。
对于 W × H W\times H W×H的图像 I I I,给定一个 λ s \lambda_s λs的卷积步长的深度神经网络 ϕ d ( ⋅ , ⋅ ; θ ) \phi_d(\cdot,\cdot;\theta) ϕd(,;θ),在最后一个卷积层中,我们有 H / λ s × W / λ s H/\lambda_s\times W/\lambda_s H/λs×W/λs空间大小的卷积特征图。然后在卷积特征图上执行[13]ROI Pooling操作,计算 R R R中每个提议对象的特征,得到图像 I I I ∣ R ∣ |R| R区域特征。对于 ∣ R ∣ |R| R的提议对象,将两个全连接层分别应用于计算得到的区域特征、生成分类结果, x c , 1 ∈ R ∣ R ∣ × C x^{c,1}\in \R^{|R|\times \mathcal{C}} xc,1RR×C,和权重矩阵, x p , 1 ∈ R ∣ R ∣ × C x^{p,1}\in \R^{|R|\times \mathcal{C}} xp,1RR×C。提议权重表示在图像级多标签分类中每个提案对 C \mathcal{C} C类的贡献。应用softmax函数将权重归一化为
在这里插入图片描述
其中 x i , j p , 1 x_{i,j}^{p,1} xi,jp,1代表在第 j j j个类别中的第 i i i个提议的权重。我们可以有一个标准化的权重矩阵 w p , 1 ∈ R ∣ R ∣ × C w^{p,1}\in \R^{|R|\times \mathcal{C}} wp,1RR×C。然后通过按元素乘积的方式计算不同类别上每个提议的最终得分, x 1 = x c , 1 ⨀ w p , 1 x^1=x^{c,1} \bigodot w^{p,1} x1=xc,1wp,1,最终的图像级多标签分类结果是通过对与每个类相关的所有建议进行求和来计算的, s c 1 = ∑ i = 1 ∣ R ∣ x i c 1 s_c^1=\sum_{i=1}^{|R|}x_{ic}^1 sc1=i=1Rxic1。这将得到输入图像 I I I的最终得分向量, s 1 = [ s 1 1 , s 2 1 , . . . , s C 1 ] s^1=[s_1^1,s_2^1,...,s_{\mathcal{C}}^1] s1=[s11,s21,...,sC1],表示每个类的置信值。一个概率向量 p ^ 1 = [ p ^ 1 1 , p ^ 2 1 , . . . , p ^ C 1 ] \widehat{p}^1=[\widehat{p}^1_1,\widehat{p}^1_2,...,\widehat{p}^1_{\mathcal{C}}] p 1=[p 11p 21...p C1]能够通过对 s 1 s^1 s1应用一个softmax函数来计算,图像级多标签分类的损失函数为,
在这里插入图片描述
Proposal Calibration. 生成的对象建议,其分类得分为 x c , 1 x^{\mathcal{c},1} xc,1,它是能够通过Proposal Calibration进行优化的,它是一个提议优化的子模块,能够细化生成的提议。目标是提高目标边界盒的预测精度,生成对象mask,为下一个模块提供更强、更准确的监督信息。
[41]最近的工作引入了一种新的激励反向传播(Excitation BP),它能够使用预测的图像级类别标签生成一个有区别的基于对象的注意力图,这启发我们使用预测的分类得分为每个提议计算一个注意力图。我们将探索与分类模块相同的网络体系结构。特别地,给出一个提议 R i R_i Ri, 我们在它的类别预测 x i c , 1 ∈ R C x_i^{\mathcal{c},1}\in \R^{\mathcal{C}} xic,1RC上,应用softmax函数去得到一个归一化的向量, w i c , 1 w_i^{\mathcal{c},1} wic,1,通过使用最高值,预测一个对象类别 c i \mathcal{c}_i ci。,除了在 w i c , 1 w_i^{\mathcal{c},1} wic,1中第 c i c_i ci个元素,设置其他的元素为0,然后我们得到一个类别激活向量 α i c , 1 ∈ R C \alpha_i^{\mathcal{c},1} \in \R^{\mathcal{C}} αic,1RC。我们使用激活向量,执行Excitation BP[41]从分类层前馈到ROI pooling层,对于提议 R i \mathcal{R}_i Ri,生成一个proposal attention map, A i A_i Ai,正如Fig.2所示。然后,对于图 I I I中带有标签 c c c的提议,我们使用分类得分 x c , 1 x^{\mathcal{c},1} xc,1进行非最大值抑制(non-maximum suppression, NMS),生成得分最高的对象候选 R c R^{\mathcal{c}} Rc。对于那些被 R c R^{\mathcal{c}} Rc抑制的提议(带有标签 c \mathcal{c} c),我们通过将它们投射到图像中相应的位置来添加它们的提议注意力图,生成一个特定类的注意图 A c A^{\mathcal{c}} Ac,即对象类 c \mathcal{c} c的实例注意力图,如Fig.2所示。最后,我们能够计算一个对象实例注意力图的集合: A = [ A 1 , A 2 , . . . , A C ] ∈ R C × H × W A=[A^1,A^2,...,A^{\mathcal{C}}] \in \R^{\mathcal{C}\times H\times W} A=[A1,A2,...,AC]RC×H×W,和背景图 A 0 = m a x ( 0 , 1 − ∑ l = 1 C y l A l ) A_0=max(0,1-\sum_{l=1}^{\mathcal{C}}y^lA_l) A0=max(0,1l=1CylAl)
我们进一步为每个实例类计算一个对象热图。对于实例类别 c \mathcal{c} c的对象的热图,通过用类 c \mathcal{c} c对所有提议进行像素级求和,在 x c , 1 x^{\mathcal{c},1} xc,1中,使用相应的分类得分,然后结合实例注意力图和对象热图来生成最终的instance confident maps,为了更精确地分割对象实例,进一步使用了条件随机域(CRF)[23]。这些产生了一组分割掩码 S 1 ∈ R K × H × W S^1\in \R^{\mathcal{K}\times H\times W} S1RK×H×W和相应的对象边界框 B 1 ∈ R K × 4 B^1\in \R^{\mathcal{K}\times 4} B1RK×4,同时,对于每一对边界框和分割掩码,我们简单地使用识别候选对象(如 R c R^{\mathcal{c}} Rc)的分类得分作为权重,得到预测的实例权重 W 1 ∈ R K W^1\in \R^{\mathcal{K}} W1RK,它被用来引导接下来的物体检测模型的训练。
Object Detection Module. 利用生成的提议边界框 B 1 B^1 B1和相应的权值 W 1 W^1 W1,我们将它们作为ground truth来训练一个标准的对象检测模型。主要的区别在于,我们在训练期间为每个生成的提议提供了一个学习权重。通过参考Faster-RCNN[31],我们在一个ground truth的边界框周围对正反两种提议进行采样,每个采样的提议与对应的ground truth具有相同的权值,然后将区域建议网络(RPN)的优化目标修改为:
在这里插入图片描述
其中, N r p n N_{rpn} Nrpn是候选的提议的数量, w i w_i wi是预测的对象得分, t i t_i ti是预测的位置偏移, w i ∗ w_i^* wi是提议的权重, t i ∗ t_i^* ti是伪位置(应该是作为ground truth输入的预测)坐标, λ \lambda λ是一个常数。 L o b j , L c l s L_{obj},L_{cls} Lobj,Lcls L r e g L_{reg} Lreg分别是二进制对象或非对象损失,类别损失,和边界框回归损失。对于RCNN部分,优化目标计算为
在这里插入图片描述
其中 p i p_i pi是类别得分, p i ∗ p_i^* pi表示的是对象类别。 N r c n n N_{rcnn} Nrcnn是通过RPN产生的提议数量, L c l s L_{cls} Lcls是类别的损失。Faster-RCNN结构的一部分,我们使用提议校准来优化目标提议,这类似于多标签分类模块。这使得模型能够生成密集的提议注意力图。在推理中,可以为多个标签生成多个候选对象,这与分类模块中为每个标签输出一个候选对象的提议校准不同。最终,我们可以用对应的边界框 T 2 T^2 T2和权重 W 2 ∈ R J W^2\in \R^{\mathcal{J}} W2RJ来获得多个实例标记 S 2 S^2 S2,其中 J \mathcal{J} J是对象实例的数量。
Instance Refinement Module. 使用生成的实例掩码 S 2 S^2 S2和对象边界框 T 2 T^2 T2,我们可以训练一个实例分割任务,该任务具有与Mask R-CNN[17]类似的联合检测分支和掩码分支。在本模块中,我们通过遵循[17]的前向推导实现了针对密集像素级预测的实例推理,而不是对提议进行校准。通过收集之前模块生成的结果中隐藏的部分信息,在模块中学习和建模对象实例。我们使用所学习的权值 W 2 W^2 W2进行对象实例分割,我们的训练过程遵循了Mask-RCNN[17]的训练过程。在建议校准中,与预测的对象位置相关的对象掩码被汇总在一起,以生成一个新的实例置信度图。类似地,我们执行CRF[23]来获得更准确的实例分割结果。
Instance Segmentation Module. 在这个模块中,已经成功地将图像级标签转换为像素级标签。我们以完全监督的方式执行标准实例分割,只需遵循在实例细化模块中实现的训练策略。最终结果可以在推理过程中生成。

3.3 Training with Label Propagation

为了更好地训练多个序列模型并避免局部极小化,我们使用一个预先训练好的ImageNet模型初始化主干网络。利用前一模块的输出,循序渐进地进行训练,并逐步加强监督。我们开发了一个两阶段的训练过程,包括级联前训练和前向后向课程学习。
Cascaded Pre-Training. 骨干网络在级联预训练期间固定。我们按顺序训练了四个级联模块,从多标签分类到实例分割。对当前模块的训练进行收敛,使模型输出得到很好的正则化和细化,然后将这些输出作为下一个模块的监督。通过级联预处理,将弱监督的实例分割任务分解为4个子任务,将图像级监督逐步有效地推广到稠密的像素级预测。
在这里插入图片描述
在这里插入图片描述
Forward-Backward Learning with Curriculum. 训练四个序列模型是一项挑战,因为使用序列标签传播,网络很容易陷入局部极小值。针对这一问题,我们提出了一种利用课程学习的前向-后向学习方法,该方法分为前向课程学习阶段和后向验证阶段,如图1所示。在前向课程学习中,四个模块依次训练,监督信息逐步增强。而在反向验证中,训练是按相反的顺序执行的。反向验证从实例分割模块开始,我们只在模块上执行推理,并为实例细化模块生成对象位置和实例掩码。然后以完全监督的方式训练实例细化模块,为对象检测模块提供对象位置。在多标签分类模块中,我们设置了提议,这个提议与检测模块检测到的物体有 > β ( = 0.5 ) >\beta(=0.5) >β(=0.5)的重叠,并带有相应的类别和背景的标签。然后对这些提议进行单标签分类,同时保持多标签分类任务的训练。

4. Experimental Results

我们的方法是使用Caffe[19]实现的,并在NVIDIA TITAN RTX GPU上运行,该GPU具有24GB内存。使用Faster R-CNN[30]和Mask R-CNN[17],对象检测和实例分割模块的参数相同。Figure 3给出了几个例子。

4.1. Network Structures

Backbone Network. 主干网络基于VGG-16,其中删除了 r e l u 4 3 relu4_3 relu43 之后的层。如Figure 1所示,只保留了前四个卷积块,所有的参数都是从ImageNet预先训练的模型中初始化的。
Multi-label Classification Module. 下面的主干网络,第五个卷积块包含了 c o n v 51 conv5 1 conv51 c o n v 52 conv5 2 conv52, and c o n v 53 conv5 3 conv53。我们将三层的stride设置为2。在 r e l u 5 3 relu5_3 relu53层的特征的步长 λ s \lambda_s λs是8,在 f c 6 fc6 fc6 f c 7 fc7 fc7后面加入一个ROI pooling层[13],产生一个 512 × 7 × 7 512\times 7\times 7 512×7×7的特征图,使用高斯初始化器随机初始化分类分支和提案权重分支,如[18]所示。
Object Detection Module. 正如在多标签分类模块, c o n v 5 1 conv5_1 conv51 c o n v 5 2 conv5_2 conv52 c o n v 5 3 conv5_3 conv53被设置为2,RPN[30]包含三个卷积层,均初始化为高斯分布,均值为0,标准差为0.01。它产生对特征图 r e l u 5 3 relu5_3 relu53进行ROI池化的提议,提出了一种基于 f c 6 fc6 fc6 f c 7 fc7 fc7两层全连通的提案分类分支和bounding box回归分支。
在这里插入图片描述
Instance Refinement Module and Instance Segmentation Module. 这两个模块具有相同的网络结构,包括对象检测部分和实例分割部分。对象检测部分与对象检测模块相似,唯一不同的是在 p o o l 4 pool4 pool4层的feature map上计算 R P N RPN RPN R O I p o o l i n g ROI pooling ROIpooling,而不是 r e l u 5 3 relu5_3 relu53。在实例分割部分,我们采用atrous spatial pyramid pooling作为DeepLab V3[5]在layer relu5 3之后的池,扩展设置为[1,2,4,6]。

4.2. Implementation Details

Cascaded Pre-Training. 在级联预处理阶段,我们按照正向顺序对四个级联模块进行训练,但保持骨干网络的参数不变。为了增加数据,我们使用了五种图像尺度,{480、576、688、864、1024}(用于短边)和水平翻转,并将长边限制在1,200。 S G D SGD SGD的小批处理大小设置为2,在第一个 40 K 40K 40K迭代中将学习率设置为0.001,然后在接下来的 10 K 10K 10K迭代中将学习率降低到0.0001。权重衰减为0.0005,动量为0.9。所有四个模块都使用这些设置。只有前一个模块的训练结束后,我们才开始下一个模块的训练。多标签分类模块采用选择性搜寻(SS)[38],每幅图像可产生约1,600个目标提议。对于对象检测模块和实例分割模块中的 R P N RPN RPN,我们按照[30]使用3个尺度和3个纵横,在每个滑动位置得到k = 9锚点。检测分支和分割分支的 R O I ROI ROI池化后的卷积特征图大小分别为 7 × 7 7×7 7×7 14 × 14 14×14 14×14

Forward-Backward Learning with Curriculum. 如Fig 1所示,训练分为两个子阶段:正向课程学习阶段和反向验证阶段,每一次迭代交替执行。所有具有可学习参数的层都以端到端方式进行训练。训练从级联的预训练模型开始,在接下来的 80 K 80K 80K迭代中,学习率为0.0001。在推理中,使用原始大小的图像作为输入。

4.3. Weakly Supervised Object Detection

Dataset and Evaluation. 我们评估了弱监督目标检测在Pascal VOC 2007和Pascal VOC 2012[11]上的性能。这两个数据集被分为训练集、val集和测试集。训练集(2007年为5011张图像,2012年为11540张图像)用于训练,其中仅使用图像级标签,没有任何边界框信息或像素级注释。通过遵循标准的Pascal VOC协议,使用mAP对测试集上的目标检测性能进行评估,同时使用CorLoc(正确的定位)对训练集上的目标定位精度[6]进行测量。
Result. Table 1和Table 2阐述了Pascal VOC 2007年和Pascal VOC 2012的目标检测结果。对象定位结果如Table 3和Table 4所示。在Pascal VOC 2007测试集上,我们的方法取得了最高的mAP(53.1%),比MEFF[12]、OICR[36]、HCP+DSD+OSSH3[20]等新方法至少高出1.9%。在Pascal VOC 2012测试集弱监督算法中mAP最高(49.2%),比[12]最新结果高1.7%。在目标定位方面,我们的性能在最先进的结果中具有很强的竞争力,在Pascal VOC 2007和2012上分别取得了68.2%和71.3%的成绩,分别比之前最好的结果提高了1.2%和1.9%。
在这里插入图片描述在这里插入图片描述
在这里插入图片描述

4.4. Weakly-Supervised Semantic Segmentation

Dataset and Evaluation. Pascal VOC 2012数据集[11]是弱监督语义分割任务的标准的基准。包含21个类别,10582张用于训练的图片(包括VOC 2012训练集和[16]标注的附加数据),1449张图片用于验证,1456张图片用于测试。只用图像级标签用于训练。我们不使用[16]中注释的任何附加数据,在Table 5中阐述测试机的结果。
Results. 如Table 5所示,我们的方法实现了57.2%的平均IoU,比之前最先进的AE-SPL[40]和MCOF[39]分别高出1.6%和1%。与目前的AE-SPL[40]、F-B[33]、FCL[32]、SEC[22]等算法相比,我们的Label-PEnet将语义分割问题转化为多个更简单的任务,使得我们可以逐步将高阶图像标签传播到像素级标签,提高了精度。

4.5. Weakly-Supervised Instance Segmentation

Dataset and Evaluation. 我们遵循[43]中的实验设置,使用Pascal VOC 2012数据集[11]进行弱监督实例分割。实验结果用 m A P r mAP^r mAPr在IoU阈值为0.25、0.5和0.75时进行评估,和平均最佳重叠(ABO)[29]。我们在Table 6中阐述实验结果。
Result. 我们使用 VGG16作为骨干,并以四个指标的形式阐述性能,而大多数现有方法使用的是ResNet50。仅PRM-VGG16应用VGG16, m A P r mAP^r mAPr 0.5为22.0%。显然,我们的方法在 m A P r mAP^r mAPr 0.5上的性能要比PRM-VGG16好8.2%。即使与PRM-ResNet50相比,我们的方法也可以在所有四个指标上获得较大的改进。

4.6. Evaluation on Individual Modules

如Table 2所示,我们进一步比较了各个模块对Pascal VOC 2007检测测试集的影响。在级联化的预训练中,多标签分类只能得到26.9%的mAP,通过proposal calibration module和detection module对目标位置进行细化后,得到39.1%的mAP。实例细化模块进一步将对象检测结果提高了10.6%,达到49.7%。最后,实例分割模块可以实现51.3%的mAP。结果表明,采用四个级联的方法可以使目标检测结果得到更准确的指导和监督,从而使目标检测结果逐步得到明显改善。当我们执行前向-后向学习时,我们的Label-PEnet可以有53.1%的mAP,比级联预处理的mAP高1.8%,也优于之前的方法,如MEFF+FRCNN[12]和OICR-Ens+FRCNN[36]。

5. Conclusions

我们提出了一种新的用于弱监督对象检测和实例分割的序列化标签传播和增强网络。通过设计四个级联模块,从多标签分类、对象检测、实例细化到实例分割,Label-PEnet能够以由粗到精的方式逐步将图像级标签转换为像素级预测。此外,我们设计了一个proposal calibration模块来探索分类CNNs识别目标关键像素点的能力,进一步提高了检测和分割的准确性。我们的Label-PEnet是基于弱监督对象检测和分割的标准基准进行评估的,它明显优于最先进的方法。

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值