Paper Reading: 用于半监督实例分割的指导蒸馏, Guided Distillation for Semi-Supervised Instance Segmentation

本文链接：https://blog.csdn.net/transfattyacids/article/details/137644334

文章提出了一种名为GuidedDistillation的方法，通过改进的蒸馏策略和特定的架构选择，显著提升了半监督实例分割的性能。在COCO和Cityscapes数据集上，当使用少量标签时，算法表现优于先前的最佳结果。研究还探讨了预训练策略和数据增强对模型效果的影响。

摘要由CSDN通过智能技术生成

在这里插入图片描述

简介

题目：《Guided Distillation for Semi-Supervised Instance Segmentation》，用于半监督实例分割的指导蒸馏，WACV(计算机视觉应用冬季会议，未进入CCF)
日期：2023.12.14
单位：FAIR, Meta, 格勒诺布尔-阿尔卑斯大学
论文地址：https://arxiv.org/abs/2308.02668
GitHub：https://github.com/facebookresearch/GuidedDistillation
作者

Tariq Berrada
在这里插入图片描述

Camille Couprie
在这里插入图片描述

Karteek Alahari, https://thoth.inrialpes.fr/~verbeek/
在这里插入图片描述

Jakob Verbeek, https://thoth.inrialpes.fr/~verbeek/
在这里插入图片描述

摘要

尽管实例分割方法已经有了很大的改进，但主要的范例是依赖于完全标记的训练图像，这很难获得。为了减轻这种依赖并提高结果，半监督方法利用未标记的数据作为额外的训练信号，限制对标记样本的过拟合。在这种背景下，我们提出了新颖的设计选择，以显著改进师生蒸馏模型。特别是，我们（i）通过引入一个新的“引导烧录”阶段来改进蒸馏方法，以及（ii）评估不同的实例分割架构，以及骨干网络和预训练策略。与之前只使用学生模型烧录期的监督数据的工作相反，我们还使用教师模型的指导来利用烧录期中的未标记数据。我们改进的蒸馏方法比以前的最先进的结果有了实质性的改进。例如，在Cityscapes数据集上，当对10%的图像使用标签时，我们将掩模AP从23.7提高到33.9，而在COCO数据集中，当仅对1%的训练数据使用标签时我们将掩膜AP从18.3提高到34.1。

目标/动机

在蒸馏过程中引入了一种新的烧录步骤，以更有效地利用未标记的图像。并结合Swin和DINOv2特征主干采用了改进的Mask2Former分割架构，首次在半监督实例分割的背景下利用vision transformer架构

在这里插入图片描述

与最先进的Polite Teacher相比，当使用1%的标签时，我们实现了+15.7的掩码AP，AP为34.0，这比Polite Teacher在COCO数据集上使用10倍多的标签（30.8）所实现的要多。

方法

训练流程可以分为三个步骤，如图3所示。

教师预训练
教师模型θt仅在注释数据上进行训练。
改进的烧录
学生模型θs被随机初始化，使用预先训练的教师模型提供的伪标签，在有标签数据和无标签数据上进行训练。在此阶段，教师模型不进行更新
蒸馏阶段
将学生的权重复制给老师，然后像之前一样对学生进行有标签和无标签数据的训练。在此阶段，教师模型使用学生权重的EMA进行更新

在这里插入图片描述

图3。我们的半监督培训方法包括三个步骤。（i）教师网络仅在标记数据上进行训练。（ii）学生从头开始初始化，并使用预先训练的教师生成的伪标签对标记数据和未标记数据进行训练。在这一步中，老师保持固定。（iii）将学生的checkpoint复制到教师，然后继续对标记和未标记的数据进行训练，同时使用来自学生权重的教师网络的EMA更新。

在这里插入图片描述

我们蒸馏阶段的工作流程。学生和教师分别接收未标记图像的弱增强版本和强增强版本。对学生预测进行过滤和热编码，以获得用作学生模型监督的伪标签。我们使用与Mask2Former[2]相同的二分实例匹配方法。然后使用EMA更新教师。

根据Mask2Former，通过构建类似于DETR的二部分匹配的成本矩阵来匹配来自学生的预测和来自教师的伪标签。对掩码使用交叉熵和Dice损失的加权和，对类预测使用交叉熵损失。

有监督和无监督损失遵循相同的程序。为了获得伪标签，需要过滤教师的预测，通过对掩码和类预测进行一次热编码来定义伪标签。

在这里插入图片描述

l_CE：类预测的交叉熵损失

l_C：二进制交叉熵

l_D：Dice损失函数

λC和λD是缩放参数，B是训练批次，K: K个候选实例
(损失很好理解，不过多赘述)

实验

在这里插入图片描述

将我们提出的蒸馏方法与之前在与Noisy Boundaries和Polite Teacher使用的策略进行了比较

在这里插入图片描述

表2。我们的方法中使用的老化迭代次数。

在这里插入图片描述

在COCO和Cityscapes数据集上的结果比较。Mask-RCNN、CenterMask2、礼貌教师和噪声边界。对于每个主干，我们指出预训练数据，DINOv2是在142M个图像的数据集上进行SSL预训练的。

消融实验

为了评估的burn-in阶段所获得的性能增益，

将其与Noisy Boundaries、Polite Teacher、brun-in迭代次数设置为零的情况进行比较
在这里插入图片描述

表4。Buin in阶段对分割性能的影响。

在这里插入图片描述

在Cityscapes数据集上，对未标记失重对验证性能的影响。Mask2Former，RN-50，10%标签。

在这里插入图片描述

骨干预训练的影响，在COCO数据集上使用的backbone是Swin-B

还实验了保持DINOv2主干固定，并且只训练分割头来评估主干的特征泛化能力。最后，为了验证低注释状态下的鲁棒性是否是骨干预训练或其架构的特性，我们报告了在Deit之后在ImageNet1k上训练的Vit-B模型的结果。如表7所示，与DINOv2预训练相比，Vit-B Deit预训练模型表现严重不佳，尽管其体积要大得多，但其性能与ResNet-50骨干相当。这表明性能的提高更多地是由于大规模的预训练，而不是ViT的架构。

在这里插入图片描述

表7。骨干微调对使用DINOv2骨干训练成绩的影响。COCO有监督训练。

教师和学生接收未标记图像的不同增强版本。添加了基于纹理的增强，包括颜色抖动、随机灰度和模糊。

在这里插入图片描述

图6。数据扩充对5%标记数据的Cityscapes的影响。我们的：我们的默认设置，包括颜色抖动，随机灰度和随机模糊。
Polite Teacher：使用plus cutout。Same：教师和学生接收弱增强图像。Supervised：仅使用标记样本训练的模型。

在这里插入图片描述

表8。使用超小标记训练集评估COCO上的监督和半监督模型。

在这里插入图片描述

表9。FLOP和我们项目中使用的不同模型的参数计数。

可视化

在这里插入图片描述

图2:当使用5%的标记数据、监督训练（顶部）和我们的半监督方法（底部）时，在COCO数据集上的结果。我们的方法可以产生更多被检测到的对象，这些对象可以以更高的精度进行分割。通过放大最佳查看结果。

在这里插入图片描述

图5。我们在Cityscapes上的结果概述，其中10%的标记数据带有R50主干。顶部：仅使用5%的标记数据训练的模型预测。底部：使用我们的半监督方法训练的模型的预测，使用5%的标记数据。如果没有我们的监督方法，该模型倾向于合并来自同一语义类别的不同实例（跨越多个对象的边界框），该模型还通过预测错误的类或仅实例的某一部分来错误识别某些对象。我们的方法大大有助于缓解所有这些问题。

总结

conclusion

在本文中，我们介绍了一种新的用于半监督实例分割的蒸馏方法——引导蒸馏。这种新方法，结合分割方法和视觉特征主干的最新进展，在城市景观和COCO基准上大大优于以前最先进的实例分割。我们发现，最佳的预训练特征主干随着标记的训练数据量的变化而变化：虽然Swin-L（IN-21k）对大多数实验来说是最优的，但我们发现ViT-L（DINOv2）主干在非常低的注释机制中更有效。在未来的工作中，我们希望将我们的方法用于其他预测任务，如对象检测，以探索更适合密集预测的变压器架构的大规模SSL预训练，并评估我们的方法对域偏移的稳健性。