论文阅读笔记：The Devil is in the Points: Weakly Semi-Supervised Instance Segmentation via Point-Guided

HollowKnightZ

已于 2024-08-09 10:02:19 修改

阅读量1.1k

点赞数 20

分类专栏：深度学习论文阅读实例分割文章标签：论文阅读计算机视觉深度学习

于 2024-08-07 21:05:49 首次发布

本文链接：https://blog.csdn.net/Z960515/article/details/141001019

版权

深度学习论文阅读同时被 2 个专栏收录

31 篇文章 3 订阅

订阅专栏

实例分割

1 篇文章 0 订阅

订阅专栏

论文阅读笔记：The Devil Is in the Points: Weakly Semi-Supervised Instance Segmentation via Point-Guided Mask Representation

1 背景
2 创新点
3 方法
4 模块
5 效果
6 结论

代码：https://github.com/clovaai/PointWSSIS

论文：https://arxiv.org/pdf/2303.15062v1.pdf

1 背景

弱监督实例分割方法使用弱标签，如图像级标签，点标签或边界框标签，由于使用了少量像素级标注数据，与强监督学习方法的结果之间仍然存在较大的性能差异。

半监督实例分割方法通常采用以下训练流程：（1）使用全标注数据训练一个基础网络，（2）使用基础网络为未标注图像生成伪实例掩码，（3）使用全标注和伪标注同时训练一个目标网络。半监督实例分割方法的主要挑战来自伪标签中缺失和噪声样本数量之间的平衡，也就是说，一些减少假阴性的策略，相当于增加了真阳性，但结果往往是相应地增加了假阳性；伪标签中大量的假阴性或误报警会阻碍目标网络的稳定收敛。

现有的实例分割方案大多采用两步推理过程，（1）生成实例提案，其中实例在提案分支中表示为方框或点；（2）为掩码分支生成中的每个实例提案生成实例掩码。如图1所示，如果网络未能获得实例提案，则无法产生对应的实例掩码，提案的缺失成为产生实例掩码的瓶颈。所以，解决提案中的瓶颈是半监督实例分割成功的捷径。
在这里插入图片描述

受上述观察的启发，作者重新思考使用点标签作为弱监督。点标签值包含一个实例分类的线索，但它的标注是友好的。点标签可以作为一个有效的来源，用于（1）解决实例分割网络的性能瓶颈（2）最佳地平衡假阴性和假阳性建议之间的权衡。因此作者提出了一种新的使用训练方案，带点标记的弱半监督实例分割。在WSSIS任务重，作者利用少量的全标注数据和大量的点标注数据进行高效的，高性能的实例分割。

在WSSIS设置下，作者使用点标签来只保留真阳性提案。为了合理利用点标签，作者考虑了FPN的特点，该网络每个金字塔层级都被训练用于识别特定大小的实例，从不合适的层级提取实例掩码往往会导致不准确的预测，如图4所示。然而，由于点标签不具有实例大小信息，作者使用一种名为自适应金字塔级别选择的有效策略来处理这个问题，根据置信度分数来估计哪个级别是最佳拟合，然后再选定的级别上自适应地生成一个实例掩码。
在这里插入图片描述

同时，在数量极其有限的全标注数据上，网络往往不能充分表示掩码分支中的实例掩码，导致实例掩码输出粗糙且存在噪声，为了应对这种情况，作者提出了一个MaskRefineNet来细化粗糙的实例掩码。MaskRefineNet取3个输入源，即图像，粗掩码和点，图像提供了关于目标实例的视觉信息，粗掩码作为待求精的先验知识，电信息显示地引导目标实例。使用更丰富的指导意义的输入源，MaskRefineNet即使在有限的全标注数据下，也可以稳定的训练。

2 创新点

作者建立了一种新的训练方式，称为带点标签的弱半监督实例分割( WSSIS )。
为了进一步提高伪实例掩码的质量，当完全标记的数据量非常有限时，提出了MaskRefineNet，该网络对粗糙实例掩码的噪声部分进行了优化。
广泛的实验结果表明，所提出的方法可以获得与强监督模型相当的性能，同时显著优于半监督方法。

3 方法

在这里插入图片描述
图3展示了提出的WSSIS两步学习流程的基线：( 1 )仅使用完整标签训练教师网络；( 2 )使用教师网络生成的完整标签和伪标签以及点标签训练学生网络。生成高质量的伪标签对于WSSIS至关重要，因此使用点标签作为过滤提案的指导，使提案只保留真阳性。然后，给定过滤后的建议，通过利用教师网络的掩码表示来生成实例掩码。值得注意的是，所提出的架构是所提任务的基线，以便人们可以探索更高级的训练方案。

4 模块

4.1 动机

为了更深入的研究半监督实例分割，作者在提案分支中调整置信度阈值来验证提案对输出实例掩码的影响，如图2所示。但是为每一个实例寻找一个最佳阈值是不切实际的。
在这里插入图片描述

4.2 自适应使用金字塔级的策略

由于点不包含实例大小信息，因此估计每个点的金字塔层级是合适的。为此，作者提出了一种名为自适应金字塔层级选择的策略，该策略根据网络的可靠性自适应地选择一个金字塔层级，期望产生最合适的实例掩码。即，根据每个级别的分辨率重新缩放点标签的坐标，并提取所有级别的置信度分数。然后，我们仅从金字塔级别生成具有最大置信度分数的实例掩码，如图4所示。

4.3 掩码细化网络

当全标注数据量极少时，网络的掩码表示会产生粗糙的实例掩码，这意味着真阳性提案并不能保证实例掩码是真阳性的。

为了处理这种具有挑战的情况，作者提出了一种简单而有效的掩码细化方法MaskRefineNet，可以根据输入图像，粗糙掩码和点信息，对教师网络输出的粗掩码进行细化。具体来说，将输入图像的每个实例区域、粗糙掩码和点信息进行裁剪，然后调整为256*256大小，并将它们拼接在一起。将点标签转化为热力图的形式，其中每个点被编码成一个sigma为6的二维高斯核。MaskRefineNet有效的原因在于：（1）将教师网络的粗糙掩码预测作为输入，因此他学习如何校准来自教师网络预测的常见错误，（2）输入的提示点可能为识别重叠实例和错误预测像素提供了准确的线索。因此MaskRefineNet在点引导的帮助下，细化了缺失和噪声部分，并解耦了如图5所示的粗糙掩码中的拥挤目标实例。
在这里插入图片描述

5 效果

和全监督方法比，标注50%的数据便可以接近全监督的效果。

Full label 100%: 用100%训练集的完整标签监督

Full label: 用训练集中一定百分比的数据的完整标签监督

Full label + Unlabel: 用一部分完整标注和剩余部分未标注的训练基监督

Full label + Point label: 用一部分完整标注和剩余部分点标注的训练集监督

Full label + Point label + MRN: 用一部分完整标注和剩余部分点标注的训练集监督，并使用掩码细化网络
在这里插入图片描述
分别使用5%，20%，50%的完整标注，剩余部分全使用点标注的效果如图7。

表1为各方法在COCO test-dev数据集上的标注时间预算和对应的指标。
在这里插入图片描述

表6为BDD100K验证集上，不断增加点标注数据带来的效果提升。
在这里插入图片描述
特征自适应选择模块的消融实验如表2，只使用单层结果伪标签的质量为23.4%。使用P2-P6所有层生成伪掩码时，AP只有10.3%，使用自适应选择模块，AP达到28.6%。当使用GT的大小信息时，AP达到30.9%，说明自适应选择模块与使用真值信息还剩一些改进空间。
在这里插入图片描述