论文阅读笔记：Consistent-Teacher: Towards Reducing Inconsistent Pseudo-targets in Semi-supervised ObjDet

最新推荐文章于 2024-09-14 20:22:29 发布

HollowKnightZ

最新推荐文章于 2024-09-14 20:22:29 发布

阅读量1k

点赞数 28

分类专栏：目标检测深度学习论文阅读文章标签：论文阅读计算机视觉深度学习目标检测

本文链接：https://blog.csdn.net/Z960515/article/details/141139175

版权

深度学习论文阅读同时被 2 个专栏收录

30 篇文章 2 订阅

订阅专栏

目标检测

13 篇文章 11 订阅

订阅专栏

论文阅读笔记：Consistent-Teacher: Towards Reducing Inconsistent Pseudo-targets in Semi-supervised Object Detection

1 背景
- 1.1 动机
- 1.2 问题
2 创新点
3 方法
4 模块
5 效果
- 5.1 和SOTA方法对比
- 5.2 消融实验

论文：https://arxiv.org/pdf/2209.01589v3.pdf

代码：https://github.com/adamdad/consistentteacher

1 背景

1.1 动机

作者在MS-COCO 10%的数据上训练了一个基于IoU分配的单阶段检测器。如图1所示，教师模型输出的微小变化会在伪框的边界产生强噪声，导致错误目标在基于IoU的静态分配下与附近物体相关联。这是因为在学生网络中，一些失活的锚被错误的分配为正样本。因此网络过拟合，导致它与相邻对象产生不一致的标签。在未标记图像上的分类损失曲线中也观察到了过拟合的情况。
在这里插入图片描述

1.2 问题

问题1：伪标签漂移的一个重要因素是分类任务和回归任务的不匹配。SSOD中只使用分类的得分来过滤伪框，然后置信度并不能说明框的质量。

问题2：在均值教师范式中，伪框的数量可能在硬阈值方案下从太少增加到太多，这会对学生产生低效和有偏的监督。

2 创新点

本研究中提出一致性教师来解决不一致问题。

使用成本感知的自使用样本分配可以代替静态IoU的锚点分配，训练阶段，计算每个伪bbox和学生预测的匹配代价，只有成本最低的预测被分配为正样本。它减少了教师的高响应特征与分配给学生的正伪目标的不匹配，从而抑制了过拟合。
提出了一种三维特征对齐模块 FAM-3D。允许分类特征感知并采用其领域内的最佳特征进行回归。
针对伪框的阈值问题，作者在训练时应用混合高斯模型为每个类别生成一个自适应阈值。

3 方法

在这里插入图片描述

作者采用通用的SSOD范式作为基线，即一个带有RetinaNet检测器的MeanTeacher框架。教师模型为学生模型的EMA。未标记图像首先经过弱增广，并输入教师检测器生成的伪标签，然后使用强增广的未标记图像作为学生网络的输入，伪标签作为学生网络的监督。同时，学生网络将有标签的图像作为输入，学习用于分类和回归的判别表示。

给定一个有 $N$ 个样本的有标签集合 $D_L=\{x_i^l,y_i^l\}^N$ 和有M个样本的无标签集合 $D_U=\{x_j^u\}^M$ 。最小化教师检测器 $f_t(·;\theta_t)$ 和学生检测器 $f_s(·;\theta_s)$ 的损失：
在这里插入图片描述

其中 $T$ 和 $T^{'}$ 分别表示图像的弱变换和强变换， $y=\{y_l=(c_l,bbox_l)\}^L_{l=1}$ 表示 $L$ 个bbox且分类标签为 $c_l$ 。 $\hat{y}=f_t(T(x);\theta_t)$ 是教师模型生成的伪Bbox。教师参数更新为 $\theta_t←(1-\gamma)\theta_t+\gamma\theta_s$ ， $\lambda_u$ 为权重参数。为了保证公平，本文实验中所有实验的 $L_{cls}$ 和 $L_{reg}$ 均设置为 Focal loss 和 GIoU loss。

4 模块

4.1 一致性自适应样本分配

在这里插入图片描述

RetinaNet中的每个锚只有在其与GT Bbox的IoU大于某个阈值时才被分配为正样本。这种静态的标签分配打破了半监督学习中一个重要的原则。以分类为例，实例级伪标签满足：
在这里插入图片描述

意味着伪标签 $\hat{c}$ 应该与它自己的预测一致。然而，当对SSOD采用静态锚分配时，锚分配的标签有时会与自己的预测相矛盾。这就是图1中出现标签漂移的原因。

意思是训练模型时是按类别损失去优化分类分支的，而分配标签却是按IoU分配的。

因此，作者提出将伪Bbox分配给锚点时最小化损失：
在这里插入图片描述

其中 $n$ 是锚点索引， $a_n∈\{1,2,…,L+1\}$ 表示从 $L$ 个预测的bbox中分配的伪bbox索引，索引 $L + 1$ 表示背景。

式（3）的一个简单方案就是为伪bbox分配损失最低的锚点为正标签。在实际应用中，计算每个锚点与为伪bbox的匹配代价，代价最低的锚点被认为是正的。给定一个锚点 $n$ ，每个伪Bbox $y_l$ 与锚点预测 $p_n$ 之间的代价为：
在这里插入图片描述

其中 $\lambda_{reg}$ 和 $\lambda_{dist}$ 为权重参数。 $C_{dist}$ 为锚点 $n$ 和伪bbox $y_l$ 的中心距离。为了稳定训练，以较小的权重值（ $\lambda$ ~0.001）作为中心距离的权重。根据每个伪bbox的匹配代价，将匹配代价最低的前 $K$ 个anchor分配为正。由于分配是根据模型的检测质量做出的，因此伪bbox中的噪声会对特征点分配产生微不足道的影响。

作者在有监督数据中也采用这种分配方式。

4.2 通过三维特征对齐实现Bbox一致性

在这里插入图片描述

在常见的SSOD框架中，伪bbox纯粹是根据分类分数生成的，然而，高置信度的预测并不总能保证准确的bbox定位，因此再次造成了Bbox中的噪声。受TOOD的启发，作者引入了三维特征对齐来校准分类置信度和bbox定位。它循序每个特征自适应地定位回归任务的最优特征。

假设特征金字塔为 $P$ ， $P (i, j, l)$ 表示第 $l$ 个金字塔层级的空间位置 $(i, j)$ 。作者想构造一个重采样函数 $P ’ \leftarrow s (P)$ 重新排列特征图进行回归任务，使 $P^{'}$ 更好地分类特征对齐。考虑到分类和回归的最优特征可以在不同的尺度上，作者将该过程扩展到多尺度特征空间。

本文的特征对齐是通过检测头重的一个分支实现的，该分支通过特征金字塔预测三维偏移进行回归。如图2所示，在不同的FPN层级上额外增加一个 $CONV_{3×3}(RELU(CONV_{1×1}))$ 层，并为每个预测估计一个偏移向量 $d=\{d_0,d_1,d_2\}∈R^3$ 。然后利用预测的偏移量分两步对 $P$ 进行重新排序：
在这里插入图片描述

式（5）是在二维空间中进行特征偏移，式（6）是不同尺度的偏移量。式（6）中的 $i^{'}, j^{'}$ 为 $i, j$ 在不同FPN等级下的重标坐标。式（5）由双线性插值实现，而式（6）通过调整 $P'(:,:,l+⌊d_2⌋+1)$ 的大小，然后用小数 $d_2$ 加权平均 $P'(:,:,l+⌊d_2⌋+1)$ 和 $P'(:,:,l+⌊d_2⌋)$ 来实现，其中 $⌊ \cdot ⌋$ 是向下取整函数（就是对小数附近的两层线性加和）。

4.3 高斯混合模型阈值化

在这里插入图片描述

本文目标是找到一种自动区分正负伪bbox的方法。具体来说，假设类别 $c$ 的得分预测 $s^c$ 是从具有正负模态的所有未标注数据的高斯混合分布 $P(s^c)$ 中采样得到的：
在这里插入图片描述

其中 $N(\mu,\sigma^2)$ 表示高斯分布， $w_n^c,\mu_n^c,(\sigma_n^c)^2$ 和 $w_p^c,\mu_p^c,(\sigma_p^c)^2$ 表示正负模态的权重，均值和方差。然后使用期望最大化（EM）算法推断后验 $P(pos|s^c,\mu_p^c,(\sigma_p^c))$ ，即检测应设置为学生伪目标的概率，并确定自适应得分阈值为：
在这里插入图片描述

在实际应用中，为每个类维护一个大小为 $N (N \geq 100)$ 的预测队列来拟合GMM。考虑到单阶段检测器的得分分布具有很强的不平衡性，因为大多数预测为负样本，所以只将预测数的前 $K=\sum_k(s_k)$ 个存储在队列中。EM算法只增加了10%的训练时间，根据模型在不同训练阶段的性能自适应地确定阈值。