CamoTeacher: 半监督伪装目标检测的双旋转一致性学习

CamoTeacher: Dual-Rotation Consistency Learning for Semi-Supervised Camouflaged Object Detection

2408.08050 (arxiv.org)

Abstract

Existing camouflaged object detection (COD) methods depend heavily on large-scale pixel-level annotations. However, acquiring such annotations is laborious due to the inherent camouflage characteristics of the objects. Semi-supervised learning offers a promising solution to this challenge. Yet, its application in COD is hindered by significant pseudo-label noise, both pixel-level and instance-level. We introduce CamoTeacher, a novel semi-supervised COD framework, utilizing Dual-Rotation Consistency Learning (DRCL) to effectively address these noise issues. Specifically, DRCL minimizes pseudo-label noise by leveraging rotation views’ consistency in pixel-level and instance-level. First, it employs Pixel-wise Consistency Learning (PCL) to deal with pixel-level noise by reweighting the different parts within the pseudo-label. Second, Instance-wise Consistency Learning (ICL) is used to adjust weights for pseudo-labels, which handles instance-level noise. Extensive experiments on four COD benchmark datasets demonstrate that the proposed CamoTeacher not only achieves state-of-the-art compared with semi-supervised learning methods, but also rivals established fully-supervised learning methods. Our code will be available soon.

现有的伪装目标检测方法严重依赖于大规模的像素级标注。然而,由于对象固有的伪装特性,获取这样的注释是费力的。半监督学习为这一挑战提供了一个有希望的解决方案。然而,它在COD中的应用受到严重的伪标签噪声(包括像素级和实例级)的阻碍。

本文介绍了一种新的半监督COD框架CamoTeacher,它利用双旋转一致性学习(Dual-Rotation Consistency Learning, DRCL)来有效地解决这些噪声问题。

具体来说,DRCL通过利用旋转视图在像素级和实例级的一致性来最小化伪标签噪声。

首先,它采用像素级一致性学习(PCL)通过重新加权伪标签内的不同部分来处理像素级噪声。

其次,使用实例一致性学习(ICL)来调整伪标签的权重,从而处理实例级噪声。

在四个COD基准数据集上的大量实验表明,与半监督学习方法相比,提出的CamoTeacher不仅达到了最先进的水平,而且可以与已建立的全监督学习方法相媲美。

Introduction

伪装物体检测(COD)旨在识别那些与其环境无缝融合的对象,包括具有保护色并能融入周围环境的动物或人造实体。然而,由于低对比度、相似纹理和模糊边界,这项任务变得复杂。与一般的物体检测不同,COD面临更多挑战,检测难度显著增加。现有的COD方法高度依赖于大量像素级标注的数据集,这些数据集的创建需要巨大的人力成本,从而限制了COD的发展。

为了缓解这一问题,半监督学习作为一种利用有标签和无标签数据的有前景的方法应运而生。然而,在COD中直接应用半监督学习并不简单,因为复杂的背景和细微的物体边界增加了难度。半监督学习在COD中的有效性受到伪标签中大量噪声的严重影响。研究发现,伪标签噪声主要分为像素级噪声和实例级噪声两种,这对改进伪标签质量以提高模型训练效果至关重要。(1)像素级噪声指的是单个伪标签内部各部分标签不一致,如图1(a)所示,蜥蜴的尾巴部分比头部更难以识别,伪标签在尾巴区域的准确性较低。这表明不能简单地统一处理伪标签内的所有部分。(2)实例级噪声指的是不同伪标签之间噪声水平的差异性。如图1(a)所示,与第二行相比,第三行的伪标签准确性较低,因为第三行中的伪装物体更难检测。这些差异表明,每个伪标签对模型训练的贡献程度不同,这强调了需要一种更细致的方法来整合伪标签信息。

Fig. 1: (a) Illustration of pixel-level and instance-level noise. Pixel-level noise refers to varying degrees of noise in different parts within an instance. Instance-level noise pertains to varying degrees of noise among different instances. (b) Visualization of performance trends on COD10K [7] under different percentages of labeled data.

为了应对在没有未标记数据的真实标签(GT)的情况下评估伪标签噪声的挑战,我们基于两个旋转视图之间的像素级不一致性和实例级一致性,提出了两种新颖的策略。具体来说,对于像素级噪声,我们观察到,通过比较两个旋转视图中的伪标签计算出的像素级不一致性,反映了相对于真实标签的实际误差,如图2(a)所示。图2(b)中的折线图所示的这种关系显示了不同部分之间的平均像素级不一致性与平均绝对误差(MAE)之间的正相关关系。因此,像素级不一致性较高的区域更容易出现不准确的情况,这表明在训练过程中需要减少对这些区域的重视。对于实例级噪声,我们确定,在旋转视图中具有更高相似性的伪标签表现出较低的噪声水平,如图3(a)所示。伪标签和真实标签之间计算的SSIM[39]与实例级一致性之间的正相关关系进一步支持了这一观察结果,如图3(b)所示。因此,表现出更高实例级一致性的伪标签可能具有更高的质量,并应在学习过程中优先考虑。

Fig. 2: (a) The real absolute error is obtained by subtracting the pseudo-label from the ground truth, reflecting the actual noisy level. On the other hand, pixel-wise inconsistency is derived from the subtraction of pseudo-labels from two rotated views. Visually, pixel-wise inconsistency and real absolute error appear very similar. (b) We define the area within 20 pixels from the edge as the boundary according to GT. We calculate mean pixel-wise inconsistency (MPI) and mean absolute error (MAE) in background, foreground, and boundary. The pseudo-labels are obtained by our proposed model on the test dataset COD10K [7] at a 10% semi-supervised setting.

Fig. 3: (a) The more similar the pseudo-labels are between two rotated views, the lower the noise level and the higher the quality of the pseudo-labels. For example, in the first row, the pseudo-labels are more similar, indicating a lower noise level compared to the pseudo-labels in the second row. (b) The positive correlation between instance-wise consistency and the SSIM [39] of pseudo-labels and GT.

基于这些观察结果,我们提出了一个名为CamoTeacher的半监督伪装物体检测框架,该框架包含一种名为双旋转一致性学习(DRCL)的新颖方法。具体来说,DRCL通过两个核心组件来实现其策略:像素级一致性学习(PCL)和实例级一致性学习(ICL)。PCL创新性地为伪标签内的不同部分分配可变权重,考虑了不同旋转视图之间的像素级不一致性。同时,ICL根据伪标签的实例级一致性调整其重要性,从而实现了细致且噪声感知的训练过程。

本文采用SINet[7]作为基础模型来实现CamoTeacher,并将其应用于更经典的COD模型,即基于CNN的模型SINet-v2[6]和SegMaR[17],以及基于Transformer的模型DTINet[24]和FSPNet[14]。在四个COD基准数据集(即CAMO[21]、CHAMELEON[33]、COD10K[7]和NC4K[25])上进行的大量实验表明,所提出的CamoTeacher不仅与半监督学习方法相比达到了最先进的水平,而且与成熟的全监督学习方法相媲美。具体来说,如图1(b)所示,在仅使用20%的标记数据的情况下,CamoTeacher在COD10K上的性能几乎达到了全监督模型的水平。

Methodology

Network

Loss Function

The overall loss function L can be defined as:

where Ls and Lu denote supervised loss and unsupervised loss

Dual-Rotation Consistency Learning

由于对象的伪装性质,伪标签包含大量的噪声,直接使用它们来优化学生模型可能会损害模型的性能。为了解决这一问题,最直观的方法之一是设置一个固定的高阈值来过滤高质量的伪标签,但这导致召回率低,难以充分利用伪标签的监管信息。为此,我们提出了双旋转一致性学习(Dual-Rotation Consistency Learning, DRCL)来动态调整伪标签的权重,以减少噪声的影响。

Pixel-wise Consistency Learning

Instance-wise Consistency Learning

  • 8
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值