End-to-End Semi-Supervised Object Detection with Soft Teacher

最新推荐文章于 2024-04-11 09:33:38 发布

小仙女呀灬

最新推荐文章于 2024-04-11 09:33:38 发布

阅读量1.1k

点赞数

文章标签：目标检测计算机视觉深度学习

本文链接：https://blog.csdn.net/m0_38064230/article/details/121541227

版权

本文提出了一种端到端的半监督目标检测方法，通过软教师机制和框抖动技术提升伪标签质量和检测性能。在COCO基准上，该方法在不同标记数据比例下表现出优越性能，显著提高了检测精度。

摘要由CSDN通过智能技术生成

作者

摘要

本文提出了一种端到端的半监督目标检测方法，与以前更复杂的多阶段方法相比。在课程中，端到端的训练逐渐提高了伪标签的质量，而越来越精确的伪标签反过来又有利于目标检测训练。在此框架下，我们还提出了两种简单而有效的方法：一种软teacher机制，其中每个未标记边界框的分类损失由teacher网络产生的分类分数进行加权；一种框抖动方法，用于为框回归学习选择可靠的伪框。在COCO基准上，在不同的标记比率下，该方法的性能大大优于以前的方法，即。E1%、5%和10%。此外，当标记数据量相对较大时，我们的方法也表现良好。例如，它可以提高40.9使用3提供的完整COCO训练集对mAP基线检测器进行训练。6张地图，达到44张。5地图，利用123K未标记的COCO图像。在最先进的基于Swin Transformer的目标检测器（58.9 mAP On test dev）上，它仍然可以将检测精度显著提高1。5张地图，达到60张。4映射，实例分割精度提高1。2张地图，达到52张。4.地图。进一步结合Object365预训练模型，检测精度达到61。3地图，实例分割精度达到53。0地图，推动最新技术的发展。

introduction

对于半监督目标检测，我们关注的是目前最先进的基于伪标签的方法。这些方法[27,36]执行多阶段训练模式，第一阶段使用标记数据训练初始检测器，然后对未标记数据进行伪标记处理，并基于伪标记未标记数据进行重新训练。这些多阶段方法实现了相当好的精度，但是，最终性能受到使用少量标记数据训练的初始且可能不准确的检测器生成的伪标签质量的限制。
为了解决这个问题，我们提出了一个基于端到端伪标签的半监督目标检测框架，该框架同时对未标记的图像执行伪标签，并在每次迭代中使用这些伪标签和一些标记的标签来训练检测器。具体地说，标记和未标记的图像以预设的比率随机采样以形成一个数据批。在这些图像上应用了两个模型，一个进行检测训练，另一个负责为未标记的图像注释伪标签。前者也称为student，后者称为teacher，这是student模型的指数移动平均（EMA）。这种端到端的方法避免了复杂的多阶段训练方案。此外，它还实现了“飞轮效应”，即伪标记和检测训练过程可以相互加强，从而随着训练的进行，两者都变得越来越好。
这种端到端框架的另一个重要好处是，它允许更多地利用teacher模型来指导student模型的训练，而不是像以前的方法那样提供“一些生成的带有硬类别标签的伪框”[27,36]。提出softteacher方法来实现这一观点。在这种方法中，teacher模型用于直接评估student模型生成的所有候选框，而不是提供“伪框”为这些student生成的候选框指定类别标签和回归向量。通过对这些候选框的直接评估，可以在student模型训练中使用更广泛的监督信息。具体地说，我们首先根据框候选对象的检测分数将其分类为前景/背景，并使用高前景阈值，以确保正伪标签的高精度，如[27]所示。然而，这种高前景阈值会导致许多正框候选被错误地指定为背景。为了解决这个问题，我们建议使用责任度量来衡量每个“背景”框候选项的损失。我们实证发现，teacher模型产生的简单检测分数可以很好地作为可靠性度量，并采用我们的方法。我们发现这种方法比以前的硬前景/背景分配方法（见表3和表4）表现得更好，我们称之为“soft teacher”。

另一种方法是通过框抖动选择可靠的边界框来训练student的本地化分支。这种方法首先会多次抖动伪前景框候选者。然后根据teacher模型的位置分支对这些抖动框进行回归，并将这些回归框的方差作为可靠性度量。具有足够高可靠性的box候选人将用于student本地化分支机构的训练。在MS-COCO目标检测基准[16]上，我们的方法达到了20。5号地图，30号。图7和图34。0使用更快的R-CNN[22]框架和ResNet-50[8]和FPN[14]在VAL2017上