这里主要围绕伪装目标检测领域提出了一种新方法:OVCOS,旨在探索更复杂自然场景中伪装对象的开放词汇语义图像分割(OVSIS),并由此构建了一个大规模的数据基准 OVCamo。

标题:Open-Vocabulary Camouflaged Object Segmentation

论文:https://arxiv.org/pdf/2311.11241.pdf

本文的主要贡献是在开放世界目标感知中,特别是在涉及到复杂场景和伪装对象的情境下,提出了一种新的任务——开放词汇伪装目标分割OVCOS)。随着以 CLIP 为代表的大规模视觉-语言模型(VLM)的出现,基于开放世界的目标感知研究迎来了爆发式的增长,笔者此前也介绍过不少 openset 的检测和分割任务。

开集的提出无非就是闭集存在的问题,即后者在解决预定义的封闭场景中,其在推断和训练阶段都能看到所有语义概念,这过于简化了真实世界的复杂性。因此,经常会遇到一个域外泛化性的问题。因此,为了解决这个问题,本文提出了一种新的任务,即在自然场景中感知伪装对象的开放词汇分割任务。

OVCoser_图像特征

为了支持这一任务,作者构建了一个大规模复杂场景数据集(OVCamo),其中包含了丰富的图像样本和相应的目标类别注释。为了应对伪装对象的识别难题,文章设计了一种强大的基线模型(OVCoser),结合了视觉语言模型(VLM)和迭代的语义引导以及结构增强。通过引入多源知识,包括深度、边缘和文本信息,该方法旨在高效地捕捉伪装对象。

OVCoser_迭代_02

最终,该方法在提出的OVCOS任务上表现出色,并在OVCamo数据集上明显优于先前开放词汇语义图像分割的最新技术水平。文章的核心思想是通过引入新任务、构建新数据集以及设计强大的模型,拓展了对开放词汇密集预测任务的研究,特别是在涉及伪装对象的复杂场景中。

数据

OVCamo数据集是该研究的关键组成部分,其构建过程考虑了从多个数据集中整合图像、属性选择、注释标定和数据划分等多个方面,以支持对开放词汇伪装目标分割任务的全面评估。下面让我们一起简单了解下:

OVCoser_人工智能_03

  1. 图像收集: 作者从现有的CSU数据集中获取数据,这些数据集包含了精细标注的分割地图。具体而言,OVCamo整合来自几个主流公共数据集的11,483张手动选择的图像,涵盖了75个目标类别。图中展示了不同类别样本数量的分布。

OVCoser_图像特征_04

        2. 目标属性考虑: 在选择图像时,作者考虑了目标的属性,例如目标的Concerntration、平均颜色比、目标-图像面积占比、目标数量等。表格1给出了这些属性的定义。图4可视化了该数据集的属性分布。

        3. 注释标定: 需要注意的是,这些数据集的注释标准存在一些语义模糊性,包括广泛的概念(如“fish”和“bug”)、模糊的定义(如“smallfish”和“black cat”)、不一致的细粒度(如“orchid mantis”和“mantis”同时存在)。这些问题可能导致开放词汇预测的不合理和不可靠的结果。为此,作者调整了类别设置,以概念的普遍性作为类别定义的标准。

        4. 数据划分: 此外,为了客观评估在未见过的类别上的开放词汇分割算法,文中提到将尽可能多的类别分配给测试集,并控制训练集到测试集的样本比例为7:3。具体而言,数据集中的14个类别用作训练集,其余的61个类别用于测试集。最终,样本的整体比例为7713:3770。

方法

OVCoser_人工智能_05

如上图所示,OVCoser 整体采用了常见的编码器-解码器范式。首先对输入对象利用冻结的 CLIP 文本编码器提取类别标签集的语义嵌入,以及视觉编码器提取多尺度图像特征。这两者作为对象分割的信息基础输入解码器,如下图(a)所示。结构性线索如深度和边缘也被引入以辅助迭代细化过程。最终,利用分割预测从高级图像特征中去除背景的干扰,以引导对象导向的视觉表示的生成。类别标签则由解码后的视觉嵌入和文本嵌入之间的相似匹配来确定。

OVCoser_数据集_06

语义引导(SG)

如上图(b),OVCoser 在解码器中引入了归一化的文本嵌入,以突出语义相关线索。特别地,文章提出了一种语义引导组件SG,将概念线索注入图像特征的自增强中。具体而言,将图像特征fi线性映射到Q、K和V,同时将文本嵌入ft转换为类别引导向量Gt。Q和Gt之间的相似性反映了不同类别在空间位置上的激活情况。在图6b的Agg中,通过softmax操作突出显示了最相关类别信息的基础权重Wb用于空间引导,然后V被调制并输入到MHSA。

结构增强(SE)

现有方法表明,低级结构信息,如边缘和深度在 CSU 任务中起着重要作用,与人类视觉系统的机制密切相关。因此,作者提出了附加到低级SG的SE组件,用于集成边缘感知和深度感知线索并改进结构细节。具体而言,SG的输出被馈入两个单独的分支,包含卷积干和边缘估计的头,如图6a所示。来自第i层(i∈{1,2,3})分支头部的边缘和深度logits映射,即Mi e和Mi d,直接进行监督。而干的输出fi e和fi d则被馈入SE,它们通过MHSA独立更新视觉特征,并与可学习权重α相结合,最终的结构如图6c所示。

迭代细化

如上所述,在SG组件中,图像特征和类别语义之间的聚合过程是非对齐的,因此需要数据驱动的优化。考虑到预训练CLIP的嵌入空间的对齐,引入了视觉和文本嵌入之间的相关矩阵Mcor作为SG的一部分,如图6b所示。同时,由于解码器输出对对象区域的强调,还引入了fobj,它来自通过最后一次迭代中粗糙分割预测池化的图像特征。通过结合这两者,获得了面向任务的对象线索,实际上受到了人类认知系统中自上而下注意机制的启发。这些对象线索在图像特征上的空间激活图Wr用于重新调制Wb。此外,迭代中的SE还有助于模型进一步优化纹理细节。为了尽可能从结构增强的辅助中获益而避免过度计算,迭代入口被设置为第三个解码层。

OVCoser_图像特征_07

不仅如此,针对CLIP在下游任务上的传递性能,作者还额外引入了CamoPrompts,设计了一套更适用于OVCOS的模板集,用于装饰类别名称。其具体形式在表格4中描述,相较于其他形式,CamoPrompts在分类性能上也取得了更好的效果。

OVCoser_迭代_08

最后,在每次迭代中,除了语义分割外,还需要执行深度估计和边缘估计作为辅助任务。对于分割预测,采用了常用的加权分割损失函数。而对于边缘估计,考虑到正负样本的不平衡问题,引入了Dice损失函数。深度估计则使用L1和SSIM损失的总和。 

可以看出,所提方法的设计旨在充分利用CLIP的预训练语义知识和融合多源信息,以提高在开放词汇伪装目标分割任务中的性能。

实验

定量角度分析

OVCoser_迭代_09

  1. 性能对比: 文中通过与五种最近的开放词汇语义图像分割(OVSIS)方法进行比较,展示了OVCoser的性能优势。这些方法在三种不同的测试方案下进行评估,包括直接使用其训练权重测试、在测试之前基于训练权重进行微调,以及在上述提及的训练集上进行重新训练后测试。可以看到,在所有方案下,OVCoser consistently表现出色,超过了其他方法。
  2. 方法对不同方案的鲁棒性: 值得注意的是,现有方法在方案I下表现更好,这可能归因于它们在更大规模的COCOStuff数据集上的训练,提供了对任务更一般理解的知识。然而,直接微调(方案II)可能破坏这种知识,并在一定程度上导致性能下降。采用重新训练的方案III,由于相对较小规模的训练数据,这些模型可能无法充分学习更复杂的结构,导致性能下降。与此同时,现有方法也缺乏对OVCOS任务的有针对性的优化,进一步导致性能恶化。相比之下,OVCoser通过多源信息的迭代细化策略,在考虑任务的不同特征时实现了领先的性能。

定性角度分析

OVCoser_迭代_10

  1. 多样性对象表现: 在图7中,可视化了每种方法在各种数据上的结果。OVCoser展现出更好的性能和对各种对象的适应性,包括大型对象、中型对象、小型对象、复杂形状、模糊边缘、严重遮挡和背景干扰。
  2. 视觉效果: 图中显示,OVCoser在应对各种挑战性场景时具有更好的视觉效果,表现出对伪装和复杂环境的敏感性。它不仅能够准确分割各种大小和形状的对象,还能够处理模糊边缘、强烈遮挡和背景干扰等情况。

通过这些实验效果可以显而易见,即无论从定量和定性两个角度,OVCoser方法在处理开放词汇伪装目标分割任务上所表现出来的优越性能。

总结

本文主要围绕伪装目标检测领域提出了一种新方法:OVCOS,旨在探索更复杂自然场景中伪装对象的开放词汇语义图像分割(OVSIS),并由此构建了一个大规模的数据基准 OVCamo。同时,考虑到任务和数据的特点,作者们提出了一个强大的单阶段基线模型 OVCoser,利用了先进的预训练视觉语言模型如CLIP。具体而言,引入了精心设计的提示模板,以加强与任务相关的语义上下文。同时还引入了额外的多源信息,包括类别语义线索、深度空间结构、对象边缘细节,以及来自输出空间的自上而下的迭代引导。借助这些组件,OVCoser能够在复杂环境中感知和分割伪装对象。大量实验证明了所提方法的有效性,并且在OVCamo上相较于现有最先进的OVSIS算法表现出卓越性能。