论文阅读笔记:Consistent-Teacher: Towards Reducing Inconsistent Pseudo-targets in Semi-supervised ObjDet

论文:https://arxiv.org/pdf/2209.01589v3.pdf

代码:https://github.com/adamdad/consistentteacher

1 背景

1.1 动机

作者在MS-COCO 10%的数据上训练了一个基于IoU分配的单阶段检测器。如图1所示,教师模型输出的微小变化会在伪框的边界产生强噪声,导致错误目标在基于IoU的静态分配下与附近物体相关联。这是因为在学生网络中,一些失活的锚被错误的分配为正样本。因此网络过拟合,导致它与相邻对象产生不一致的标签。在未标记图像上的分类损失曲线中也观察到了过拟合的情况。
在这里插入图片描述

1.2 问题

问题1:伪标签漂移的一个重要因素是分类任务和回归任务的不匹配。SSOD中只使用分类的得分来过滤伪框,然后置信度并不能说明框的质量。

问题2:在均值教师范式中,伪框的数量可能在硬阈值方案下从太少增加到太多,这会对学生产生低效和有偏的监督。

2 创新点

本研究中提出一致性教师来解决不一致问题。

  1. 使用成本感知的自使用样本分配可以代替静态IoU的锚点分配,训练阶段,计算每个伪bbox和学生预测的匹配代价,只有成本最低的预测被分配为正样本。它减少了教师的高响应特征与分配给学生的正伪目标的不匹配,从而抑制了过拟合。

  2. 提出了一种三维特征对齐模块 FAM-3D。允许分类特征感知并采用其领域内的最佳特征进行回归。

  3. 针对伪框的阈值问题,作者在训练时应用混合高斯模型为每个类别生成一个自适应阈值

3 方法

在这里插入图片描述

作者采用通用的SSOD范式作为基线,即一个带有RetinaNet检测器的MeanTeacher框架。教师模型为学生模型的EMA。未标记图像首先经过弱增广,并输入教师检测器生成的伪标签,然后使用强增广的未标记图像作为学生网络的输入,伪标签作为学生网络的监督。同时,学生网络将有标签的图像作为输入,学习用于分类和回归的判别表示。

给定一个有 N N N 个样本的有标签集合 D L = { x i l , y i l } N D_L=\{x_i^l,y_i^l\}^N DL={xil,yil}N 和 有M个样本的无标签集合 D U = { x j u } M D_U=\{x_j^u\}^M DU={xju}M。最小化教师检测器 f t ( ⋅ ; θ t ) f_t(·;\theta_t) ft(⋅;θt) 和 学生检测器 f s ( ⋅ ; θ s ) f_s(·;\theta_s) fs(⋅;θs) 的损失:
在这里插入图片描述

其中 T T T T ′ T' T 分别表示图像的弱变换和强变换, y = { y l = ( c l , b b o x l ) } l = 1 L y=\{y_l=(c_l,bbox_l)\}^L_{l=1} y={yl=(cl,bboxl)}l=1L 表示 L L L 个bbox且分类标签为 c l c_l cl y ^ = f t ( T ( x ) ; θ t ) \hat{y}=f_t(T(x);\theta_t) y^=ft(T(x);θt) 是教师模型生成的伪Bbox。教师参数更新为 θ t ← ( 1 − γ ) θ t + γ θ s \theta_t←(1-\gamma)\theta_t+\gamma\theta_s θt(1γ)θt+γθs λ u \lambda_u λu 为权重参数。为了保证公平,本文实验中所有实验的 L c l s L_{cls} Lcls L r e g L_{reg} Lreg 均设置为 Focal loss 和 GIoU loss。

4 模块

4.1 一致性自适应样本分配

在这里插入图片描述

RetinaNet中的每个锚只有在其与GT Bbox的IoU大于某个阈值时才被分配为正样本。这种静态的标签分配打破了半监督学习中一个重要的原则。以分类为例,实例级伪标签满足:
在这里插入图片描述

意味着伪标签 c ^ \hat{c} c^ 应该与它自己的预测一致。然而,当对SSOD采用静态锚分配时,锚分配的标签有时会与自己的预测相矛盾。这就是图1中出现标签漂移的原因。

意思是训练模型时是按类别损失去优化分类分支的,而分配标签却是按IoU分配的。

因此,作者提出将伪Bbox分配给锚点时最小化损失:
在这里插入图片描述

其中 n n n 是锚点索引, a n ∈ { 1 , 2 , … , L + 1 } a_n∈\{1,2,…,L+1\} an{1,2,,L+1} 表示从 L L L 个预测的bbox中分配的伪bbox索引,索引 L + 1 L+1 L+1 表示背景。

式(3)的一个简单方案就是为伪bbox分配损失最低的锚点为正标签。在实际应用中,计算每个锚点与为伪bbox的匹配代价,代价最低的锚点被认为是正的。给定一个锚点 n n n,每个伪Bbox y l y_l yl 与锚点预测 p n p_n pn 之间的代价为:
在这里插入图片描述

其中 λ r e g \lambda_{reg} λreg λ d i s t \lambda_{dist} λdist 为权重参数。 C d i s t C_{dist} Cdist 为锚点 n n n 和伪bbox y l y_l yl 的中心距离。为了稳定训练,以较小的权重值( λ \lambda λ~0.001)作为中心距离的权重。根据每个伪bbox的匹配代价,将匹配代价最低的前 K K K 个anchor分配为正。由于分配是根据模型的检测质量做出的,因此伪bbox中的噪声会对特征点分配产生微不足道的影响。

作者在有监督数据中也采用这种分配方式。

4.2 通过三维特征对齐实现Bbox一致性

在这里插入图片描述

在常见的SSOD框架中,伪bbox纯粹是根据分类分数生成的,然而,高置信度的预测并不总能保证准确的bbox定位,因此再次造成了Bbox中的噪声。受TOOD的启发,作者引入了三维特征对齐来校准分类置信度和bbox定位。它循序每个特征自适应地定位回归任务的最优特征。

假设特征金字塔为 P P P P ( i , j , l ) P(i,j,l) P(i,j,l) 表示第 l l l 个金字塔层级的空间位置 ( i , j ) (i,j) (i,j)。作者想构造一个重采样函数 P ’ ← s ( P ) P’←s(P) Ps(P) 重新排列特征图进行回归任务,使 P ′ P' P 更好地分类特征对齐。考虑到分类和回归的最优特征可以在不同的尺度上,作者将该过程扩展到多尺度特征空间。

本文的特征对齐是通过检测头重的一个分支实现的,该分支通过特征金字塔预测三维偏移进行回归。如图2所示,在不同的FPN层级上额外增加一个 C O N V 3 × 3 ( R E L U ( C O N V 1 × 1 ) ) CONV_{3×3}(RELU(CONV_{1×1})) CONV3×3(RELU(CONV1×1)) 层,并为每个预测估计一个偏移向量 d = { d 0 , d 1 , d 2 } ∈ R 3 d=\{d_0,d_1,d_2\}∈R^3 d={d0,d1,d2}R3。然后利用预测的偏移量分两步对 P P P 进行重新排序:
在这里插入图片描述

式(5)是在二维空间中进行特征偏移,式(6)是不同尺度的偏移量。式(6)中的 i ′ , j ′ i',j' i,j i , j i,j i,j 在不同FPN等级下的重标坐标。式(5)由双线性插值实现,而式(6)通过调整 P ′ ( : , : , l + ⌊ d 2 ⌋ + 1 ) P'(:,:,l+⌊d_2⌋+1) P(:,:,l+d2+1) 的大小,然后用 小数 d 2 d_2 d2 加权平均 P ′ ( : , : , l + ⌊ d 2 ⌋ + 1 ) P'(:,:,l+⌊d_2⌋+1) P(:,:,l+d2+1) P ′ ( : , : , l + ⌊ d 2 ⌋ ) P'(:,:,l+⌊d_2⌋) P(:,:,l+d2⌋) 来实现,其中 ⌊ ⋅ ⌋ ⌊·⌋ 是向下取整函数(就是对小数附近的两层线性加和)。

4.3 高斯混合模型阈值化

在这里插入图片描述

本文目标是找到一种自动区分正负伪bbox的方法。具体来说,假设类别 c c c 的得分预测 s c s^c sc 是从具有正负模态的所有未标注数据的高斯混合分布 P ( s c ) P(s^c) P(sc) 中采样得到的:
在这里插入图片描述

其中 N ( μ , σ 2 ) N(\mu,\sigma^2) N(μ,σ2) 表示高斯分布, w n c , μ n c , ( σ n c ) 2 w_n^c,\mu_n^c,(\sigma_n^c)^2 wnc,μnc,(σnc)2 w p c , μ p c , ( σ p c ) 2 w_p^c,\mu_p^c,(\sigma_p^c)^2 wpc,μpc,(σpc)2 表示正负模态的权重,均值和方差。然后使用期望最大化(EM)算法推断后验 P ( p o s ∣ s c , μ p c , ( σ p c ) ) P(pos|s^c,\mu_p^c,(\sigma_p^c)) P(possc,μpc,(σpc)),即检测应设置为学生伪目标的概率,并确定自适应得分阈值为:
在这里插入图片描述

在实际应用中,为每个类维护一个大小为 N ( N ≥ 100 ) N(N≥100) N(N100) 的预测队列来拟合GMM。考虑到单阶段检测器的得分分布具有很强的不平衡性,因为大多数预测为负样本,所以只将预测数的前 K = ∑ k ( s k ) K=\sum_k(s_k) K=k(sk) 个存储在队列中。EM算法只增加了10%的训练时间,根据模型在不同训练阶段的性能自适应地确定阈值。

5 效果

5.1 和SOTA方法对比

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

5.2 消融实验

自适应anchor分配模块的消融实验。
在这里插入图片描述

3D特征对齐模块的消融实验。
在这里插入图片描述

GMM阈值的消融实验。
在这里插入图片描述
在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值