Camouflaged Object Detection

摘要

我们对一项名为伪装物体检测(COD)的新任务进行了全面研究,该任务旨在识别“无缝”嵌入到周围环境中的物体。目标对象与背景之间的高内在相似性使目标检测比传统的目标检测任务更具挑战性。为了解决这个问题,我们精心收集了一个名为COD10K的新数据集,包含了10000幅覆盖各种自然场景中的伪装物体的图像,超过78种物体类别。所有图像都密集地标注了类别、边界框、目标/实例级和抠图级标签。该数据集可以作为许多视觉任务的催化剂,如定位、分割和alpha-mattin等。此外,我们开发了一个简单但有效的COD框架,称为搜索识别网络(SINet)。在没有任何附加功能的情况下,SINet在所有测试数据集上都优于各种最先进的目标检测基线,使其成为一个健壮的、通用的框架,有助于促进COD的未来研究。最后,我们进行了一个大规模的COD研究,评估了13个前沿模型,提供了一些有趣的发现,并展示了一些潜在的应用。我们的研究为社区提供了一个在这个新领域进行更多探索的机会。

1、简介

你能找到图1中每个图像中隐藏的物体吗?生物学家称这种背景匹配伪装为[9],即动物试图使自己的身体颜色与周围环境“完美”匹配,以避免被认出[48]。感官生态学家发现,这种伪装策略通过欺骗观察者的视觉感知系统而起作用。因此,寻址伪装目标检测(COD)需要大量的视觉感知知识。如图2所示,目标对象与背景之间具有较高的内在相似性,使得COD检测比传统的显著性目标检测或一般目标检测更具挑战性。

除了科学价值外,COD在计算机视觉(搜救工作,或珍稀物种发现)、医学图像分割(如息肉分割,肺部感染分割)、农业(如蝗虫检测防止入侵)和艺术(如,用于逼真的混合图片,或休闲艺术)。

目前,由于缺乏足够大的数据集,伪装目标检测还没有得到很好的研究。为了全面研究这一主题,我们提供了两个贡献。首先,我们仔细地组装了专为COD设计的新型COD10K数据集。它与当前的数据集有以下几个方面的不同:

  1. 包含10K图像,覆盖78种伪装目标类别,如水生、飞行、两栖、陆地等。
  2. 所有伪装图像都用类别、边界框、物体级和实例级标签进行分层标注,方便了许多视觉任务,如定位、物体建议、语义边缘检测、任务迁移学习等。
  3. 每个伪装图像都被分配有挑战性的属性,在现实世界和mattinglevel标签中发现(需要约60分钟每张图像)。这些高质量的注释有助于对算法的性能提供更深入的了解。

其次,利用收集到的COD10K和两个现有数据集,我们对12条最先进的(SOTA)基线进行了严格的评估,使我们成为规模最大的COD研究。此外,我们提出了一个简单而有效的框架,即SINet(搜索和识别网)。值得注意的是,SINet的整体训练时间只有约1小时,并且在所有现有COD数据集上都达到了SOTA性能,这表明它可能是COD的一种潜在解决方案。我们的工作形成了深度学习时代COD任务的第一个完整基准,从伪装的角度为目标检测带来了一个新的视角。

                   

                   

2、相关工作

如[79]所述,物体大致可以分为三类:一般物体、突出物体和伪装物体。我们将每种类型的检测策略描述如下。

2.1、通用目标检测和显著性目标检测

通用的目标检测:

计算机视觉中最流行的方向之一是通用目标检测。注意,一般物体可以是突出的,也可以是伪装的;伪装的物体可以被看作是普通物体的困难案例(图9的第二和第三行)。典型的GOD任务包括语义切分和全景切分(图2b)。

显著性目标检测:

这项任务的目的是识别图像中最引人注目的对象,然后分割它们像素级的轮廓。虽然术语“显著性”本质上是“伪装性”(突出与沉浸性)的对立面,但显著性物体仍然可以为伪装性物体检测提供重要信息,例如使用包含显著性物体的图像作为阴性样本。也就是说,在COD数据集中,阳性样本(包含显著对象的图像)可以被用作阴性样本。

2.2、伪装目标检测

对伪装物体的探测的研究,对提高我们的视觉感知知识产生了巨大的影响,在生物学和艺术领域有着悠久而丰富的历史。阿尔伯特·塞耶和休·科特的两项关于伪装动物的卓越研究至今仍具有巨大的影响力。读者可以参考Stevens等人的调查来了解更多关于这段历史的细节。

数据集:

CHAMELEON是一个未发布的数据集,它只有76张带有手动注释的目标级ground-truth(GTs)的图像。这些图片是谷歌搜索引擎用“伪装动物”作为关键词从互联网上收集的。另一个当代数据集是CAMO[32],它有2.5K图像(2K用于训练,0.5K用于测试),涵盖八个类别。它有两个子数据集CAMO和MS-COCO,每个子数据集包含1.25K图像。与现有的数据集不同,我们的COD10K的目标是提供更具挑战性、更高质量和密集注释的数据集。据我们所知,COD10K是迄今为止最大的伪装目标检测数据集,包含10K图像(6K用于训练,4K用于测试)。详见表1。

伪装的类型:

伪装图像大致可以分为两种:一种是天然伪装,另一种是人工伪装。自然伪装是动物(如昆虫、头足类动物)用来避免被捕食者识别的一种生存技能。相比之下,人工伪装通常出现在产品制造过程中(所谓缺陷),或者用于游戏/美术中隐藏信息。

COD格式:

与语义分割等类依赖任务不同,COD是类独立任务。因此,COD的公式简单,易于定义。考虑到任务需要一个图像,一个伪装的目标检测方法来分配每个像素i置信度,表示像素的概率得分。0分了像素不属于伪装的目标,虽然分数1表示一个像素是完全分配给伪装的目标。本文主要讨论目标级的COD任务,实例级的COD留给我们以后的工作。

评估准则:

平均绝对误差(MAE)在SOD任务中得到了广泛的应用。继Perazzi等人之后,我们也采用MAE (M)度量来评估预测C和地面真相g之间的像素级精度。然而,虽然MAE度量有助于评估错误的存在和数量,但它不能确定错误发生的地方。最近,Fan等人提出了一种基于人类视觉感知的E-measure ()[13],它同时评估像素级匹配和图像级统计。这个度量自然适合于评估伪装目标检测结果的整体和局部精度。由于伪装的物体通常包含复杂的形状,COD也需要一个衡量标准来判断结构相似性。我们利用s测度()作为我们的替代度量。最近的研究[12,13]表明,加权F-measure ()比传统的评价结果更可靠;因此,我们在COD领域也考虑这个度量。

3、提出的数据集

新的任务和数据集的出现使得计算机视觉的各个领域都取得了快速的进展。 例如,ImageNet[52]革命性地使用了深度模型进行视觉识别。 考虑到这一点,我们研究和开发COD数据集的目标是:(1)提供一个新的具有挑战性的任务,(2)促进新课题的研究,(3)激发新的想法。 COD10K的例子如图1、3和图4 (e)所示。我们将从以下三个关键方面对COD10K的细节进行描述。 COD10K可以在这里找到。

3.1、图像收集

注释的质量和数据集的大小是决定其作为基准的生命周期的因素。 为此,COD10K包含10,000张图片(5,066张伪装图片,3,000张背景图片,1,934张非伪装图片),分为10个超级类,以及78个子类(69张伪装图片,9张非伪装图片),这些图片是从多个摄影网站收集而来的。 大多数伪装图像来自Flicker,并与以下关键词一起用于学术用途: 其余的迷彩图像(约200张)来自其他网站,包括Visual Hunt, Pixabay, Unsplash, Free-images等, 该网站发布公有领域的库存照片,不受版权和忠诚的约束。 为了避免选择偏差[17],我们还从Flickr上收集了3000张显著图像。 为了进一步丰富负样本,我们从互联网上选取了1934幅非伪装图像,包括森林、雪、草原、天空、海水等类别的背景场景。

3.2、专业的标注

最近发布的数据集[10,15,16]表明,在创建大规模数据集时,建立一个分类系统是至关重要的。 在[45]的驱动下,我们的注解(通过众包获得)是分层的(类别边框属性目标/实例)。  

             

            

  • 类别:如图4 (a)所示,我们首先创建5个超类类别。 然后,根据收集到的数据,总结出69个最常见的亚类类别。 最后,对每个图像的子类和超类进行标注。 如果候选图像不属于任何已建立的类别,我们将其分类为“其他”。  
  • 边界框: 为了扩展COD10K用于伪装对象提议任务,我们还仔细地为每个图像的边界框添加了注释。  
  • 属性:根据文献[17,50],我们用自然场景中面临的极具挑战性的属性来标记每个迷彩图像,例如遮挡、不确定的边界。 属性描述如表2所示,共属性分布如图5所示。  
  • 目标实例: 我们强调现有的COD数据集只关注对象级的标签(表1)。然而,能够将一个对象解析为其实例对于计算机视觉研究人员能够编辑和理解场景是很重要的。 为此,我们进一步在实例级注释对象,如COCO[36],结果是5,069个对象级掩码和5,930个实例级gt。  

3.3、数据集特征和统计

  • 对象的大小: 在[17]之后,我们在图6(左上角)中绘制了归一化对象的大小,即大小分布从0.01%到80.74%(平均8.94%),显示出比CAMO-COCO和CHAMELEON更广泛的范围。  
  • 全局/本地的对比: 为了评估一个对象是否容易检测,我们使用全局/局部对比策略[34]来描述它。 图6(右上)显示COD10K中的对象比其他数据集中的对象更具挑战性。  
  • 中心偏见:这在拍照时很常见,因为人们很自然地倾向于把焦点放在场景的中心。 我们采用[17]中描述的策略来分析这种偏差。 图6(底部)显示,我们的数据集比其他数据集的中心偏差更小。  
  • 质量控制:为了保证高质量的标注,我们邀请了三位观众参与10倍交叉验证的标注过程。 图7显示了通过/拒绝的例子。 这个实例级注释平均每个图像花费约60分钟。  
  • 超/子类分布:COD10K包括5个超级纲(陆地类、大气类、水生类、两栖类、其他类)和69个亚纲(如蝙蝠鱼、狮子、蝙蝠、青蛙等)。 图4 c&d分别显示了不同类别的词云和对象/实例数的示例。  
  • 解决分布:如[70]所述,高分辨率数据为模型训练提供了更多的对象边界细节,并在测试时产生更好的性能。 图4 (b)为COD10K的分辨率分布,其中包含大量的Full HD 1080p图像。  
  • 数据集分割:为了给深度学习模型提供大量的训练数据,COD10K被分割成6000张图像进行训练,4000张图像进行测试,从每个子类中随机抽取。 

4、提出的框架

动机:

生物学研究[22]表明,捕食者在狩猎时,首先会判断潜在猎物是否存在,即会搜索猎物; 然后,可以识别目标动物; 最后,它可以被捕获。  

概览:

提出的SINet框架的灵感来自打猎的前两个阶段。 它包括两个主要模块:搜索模块(SM)和识别模块(IM)。 前者负责寻找伪装的物体,而后者则用来精确地检测它。  

4.1、搜索模块(SM)

神经科学实验已经证实,在人类视觉系统中,一组不同大小的群体接受域(pRFs)有助于突出视网膜中央窝附近的区域,该区域对微小的空间位移[41]敏感。 这促使我们在搜索阶段(通常是在一个小/局部空间)使用RF[41,68]组件来合并更多的鉴别特征表示。 具体来说,对于输入图像i2 ,从ResNet-50[24]中提取一组特征。 为了保留更多的信息,我们在第二层中修改stride = 1的参数,使其具有相同的分辨率。 因此,每一层的分辨率为。  

最近的证据[78]表明,浅层的低级特征保留空间细节,用于构建对象边界,而深层的高级特征保留语义信息,用于定位对象。 由于神经网络的这种固有特性,我们将提取的特征划分为低阶,中级,高级; 通过串联,上采样和下采样操作将它们组合起来。 与[78]不同的是,我们的SINet利用密集连接策略[26]来保存来自不同层的更多信息,然后使用修改后的射频[41]组件来扩大接受域。 例如,我们融合了低层特征使用串联操作,然后将分辨率降低一半。 这个新特性然后被进一步馈入射频组件以产生输出特性。 如图8所示,结合三个层次的特征后,我们得到一组增强的特征用于学习强大的线索。  

感受野

射频组件包括五个分支。 在每个分支中,第一个卷积(Bconv)层的维度为1×1,以将通道大小减少到32。 其次是Bconv层和当k为>时具有特定膨胀速率(2k−1)的3 × 3 Bconv层。 前4个分支被连接,然后它们的通道大小通过1 × 1 Bconv操作减少到32。 最后添加第5个分支,将整个模块交给一个ReLU函数,得到特性。  

4.2、识别模块

在之前的搜索模块中获取候选特征后,在识别模块中,我们需要对伪装目标进行精确的检测。 我们扩展了具有密集连接特征的部分译码器组件(PDC)[68]。 更具体地说,PDC集成了SM的四个级别的特性。 因此,粗伪装地图可以通过:

               

其中。 已有文献[40,68]表明,注意机制可以有效消除无关特征的干扰。 我们引入一个搜索注意(SA)模块来增强中层特征,得到增强的伪装图

           

其中g(·)为SA函数,实际上是一个典型的高斯滤波器,标准差σ = 32,核大小λ = 4,然后进行归一化运算。是一个最大函数,用来突出的初始伪装区域。  

为了从整体上获得高级特性,我们进一步利用PDC将另外三层特性聚合起来,通过射频功能增强,得到我们最终的伪装图

            

其中。 之间的区别是输入特征的数量。  

部分解码组件:

形式上,给定特征从搜索和识别阶段,我们使用上下文模块生成新的特征。 采用元素级乘法减小相邻特征之间的间隙。 具体来说,对于最浅的特征,如,当k = m时,我们设置。对于较深的特征,如; k < M,我们将其更新为

   

其中,Bconv(·)是一个3 × 3卷积后的批处理归一化和ReLU函数相结合的序列操作。 UP(·)是一个的上采样操作。 最后,我们将这些鉴别特征通过串联运算组合起来。 我们训练SINet的损失函数是交叉熵损失。 总损失函数L为:  

              

其中是在被上采样到352×352分辨率后获得的两个伪装对象映射。  

4.3、实现细节

SINet是在PyTorch中实现的,并使用Adam优化器[29]进行训练。 在训练阶段,batch size设置为36,学习速率从1e-4开始。 整个训练时间只有大约70分钟,30个epoch(提前停止策略)。 在intel i9-9820X CPU @3.30GHz × 20和TITAN RTX平台上测量运行时间。 对于352×352图像,推断时间为0.2s。  

5、基准实验

5.1、实验设置

训练测试细节:为了验证SINet的可通用性,我们提供了三个训练设置,使用的训练集(伪装图像)来自:(i) CAMO [32], (ii) COD10K,和(iii) CAMO + COD10K + EXTRA。 对于CAMO,我们使用默认的训练集。 对于COD10K,我们使用默认的伪装图像训练。 我们在整个变色龙[56]数据集和CAMO测试集以及COD10K上评估了我们的模型。  

基线:据我们所知,目前还没有公开可用的基于深度网络的COD模型。 因此,我们根据以下标准选择了12条深度学习基线:(1)经典架构,(2)最近发布的,(3)在特定领域达到SOTA性能,如GOD或SOD。 这些基线使用推荐的参数设置进行训练,使用(iv)训练设置。  

5.1、结果和数据分析

CHAMELEON上的性能:从表3中可以看出,与12个SOTA目标检测基线相比,我们的SINet在所有指标上都取得了最好的性能。 注意,我们的模型不应用任何辅助边/边界特征(例如,EGNet, PFANet),预处理技术,或后处理策略(例如,CRF,图切割)。  

Performance on CAMO:我们还在最近提出的CAMO[32]数据集上测试了我们的模型,其中包括各种伪装对象。 根据表3中报告的总体性能,我们发现CAMO数据集比以前的数据集更具挑战性。 SINet再次获得了最好的性能,进一步证明了其鲁棒性。  

Performance on COD10K:通过我们的COD10K数据集的测试集(2026张图片),我们再次观察到,我们提出的SINet始终优于其他竞争对手。 这是因为其专门设计的搜索和识别模块可以自动学习丰富的高、中、低级特征,这对于克服对象边界中具有挑战性的歧义至关重要(图9)。  
GOD vs. SOD Baselines:一个值得注意的发现是,在前3个模型中,GOD模型(即FPN)比SOD竞争对手CPD、EGNet表现更差,这表明SOD框架可能更适合扩展到COD任务。 与GOD相比或SOD模型,SINet显著减少训练时间(例如,SINet: 1小时与EGNet: 48小时)和达到SOTA性能在所有数据集,表明它是一种很有前途的鳕鱼的问题的解决方案。  

Cross-dataset Generalization:数据集的可泛化性和难易性在不同算法的训练和评估中都起着至关重要的作用。 因此,我们对现有COD数据集的这些方面进行了研究,使用交叉数据集分析方法,即在一个数据集上训练模型,在其他数据集上测试模型。 我们选择两个数据集,包括CAMO和我们的COD10K。 接下来,对于每个数据集,我们随机选取800幅图像作为训练集,200幅图像作为测试集。 为了进行公平的比较,我们在每个数据集上训练SINet,直到损失稳定为止。 表4给出了交叉数据集概化的S-measure结果。 每一行列出一个模型,该模型在一个数据集上进行训练,并在所有其他数据集上进行测试,表明用于训练的数据集的通用性。 每一列显示在特定数据集上测试的一个模型的性能,并在所有其他数据集上进行训练,表明测试数据集的难度。 请注意,训练/测试设置与表3中使用的不同,因此性能不具有可比性。 如预期的那样,我们发现我们的COD10K是最困难的(例如,最后一行意味着其他:0.589)。 这是因为我们的数据集包含了各种具有挑战性的伪装目标(见x3)。我们可以看到我们的COD10K数据集适用于更具挑战性的场景。  

Qualitative Analysis:图9给出了我们的SINet和两个基线之间的定性比较。 可以看出,PFANe能够定位伪装目标,但输出总是不准确。 通过进一步利用边缘特征,EGNet实现了比PFANet相对更准确的定位。 然而,它仍然忽略了物体的细节,尤其是第一排的鱼。 对于所有这些具有挑战性的情况(例如,不可定义的边界、遮挡和小物体),SINet能够推断出具有细节的真正伪装对象,这证明了我们的框架的健壮性。  

6、有潜力的应用

伪装探测系统(CDS)有多种可能的应用。 在这里,我们设想了两种潜在的用途。 更多详情请浏览我们的网站。  

Medical Image Segmentation:如果一种医学图像分割方法配备了针对特定物体(如息肉)进行训练的CDS,它可以用于自动分割息肉(图10a),在自然界中发现和保护珍稀物种,甚至在灾区进行搜救。  

搜索引擎:图11显示了来自谷歌的搜索结果示例。 从结果中(图11a),我们注意到搜索引擎无法检测到隐藏的蝴蝶,因此只提供具有相似背景的图像。 有趣的是,当搜索引擎装备了一个CDS(这里,我们只是简单地改变关键字),引擎可以识别伪装对象,然后反馈几个蝴蝶图像(图11b)。  

       

7、结论

我们已经从伪装的角度提出了第一个完整的目标检测基准。 具体来说,我们提供了一个新的具有挑战性和密集注释的COD10K数据集,进行了大规模评估,开发了一个简单但高效的端到端SINet框架,并提供了几个潜在的应用程序。 与现有的前沿基线相比,SINet更具竞争力,在视觉上产生更有利的结果。 上述贡献为社区提供了一个为COD任务设计新模型的机会。 在今后的工作中,我们计划扩展COD10K数据集,提供各种形式的输入,例如-D伪装目标检测(类似于RGB-D显著目标检测)等。 还可以探索新的技术,如弱监督学习、零镜头学习、VAE和多尺度骨干。  

  • 1
    点赞
  • 19
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Wanderer001

ROIAlign原理

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值