OVCoser

最新推荐文章于 2024-10-10 11:54:20 发布

新littleant

最新推荐文章于 2024-10-10 11:54:20 发布

阅读量26

点赞数

文章标签：人工智能

这里主要围绕伪装目标检测领域提出了一种新方法：OVCOS，旨在探索更复杂自然场景中伪装对象的开放词汇语义图像分割（OVSIS），并由此构建了一个大规模的数据基准 OVCamo。

标题：Open-Vocabulary Camouflaged Object Segmentation

论文：https://arxiv.org/pdf/2311.11241.pdf

本文的主要贡献是在开放世界目标感知中，特别是在涉及到复杂场景和伪装对象的情境下，提出了一种新的任务——开放词汇伪装目标分割（OVCOS）。随着以 CLIP 为代表的大规模视觉-语言模型（VLM）的出现，基于开放世界的目标感知研究迎来了爆发式的增长，笔者此前也介绍过不少 openset 的检测和分割任务。

开集的提出无非就是闭集存在的问题，即后者在解决预定义的封闭场景中，其在推断和训练阶段都能看到所有语义概念，这过于简化了真实世界的复杂性。因此，经常会遇到一个域外泛化性的问题。因此，为了解决这个问题，本文提出了一种新的任务，即在自然场景中感知伪装对象的开放词汇分割任务。

OVCoser_图像特征

为了支持这一任务，作者构建了一个大规模复杂场景数据集（OVCamo），其中包含了丰富的图像样本和相应的目标类别注释。为了应对伪装对象的识别难题，文章设计了一种强大的基线模型（OVCoser），结合了视觉语言模型（VLM）和迭代的语义引导以及结构增强。通过引入多源知识，包括深度、边缘和文本信息，该方法旨在高效地捕捉伪装对象。

OVCoser_迭代_02

最终，该方法在提出的OVCOS任务上表现出色，并在OVCamo数据集上明显优于先前开放词汇语义图像分割的最新技术水平。文章的核心思想是通过引入新任务、构建新数据集以及设计强大的模型，拓展了对开放词汇密集预测任务的研究，特别是在涉及伪装对象的复杂场景中。

数据

OVCamo数据集是该研究的关键组成部分，其构建过程考虑了从多个数据集中整合图像、属性选择、注释标定和数据划分等多个方面，以支持对开放词汇伪装目标分割任务的全面评估。下面让我们一起简单了解下：

OVCoser_人工智能_03

图像收集： 作者从现有的CSU数据集中获取数据，这些数据集包含了精细标注的分割地图。具体而言，OVCamo整合来自几个主流公共数据集的11,483张手动选择的图像，涵盖了75个目标类别。图中展示了不同类别样本数量的分布。

OVCoser_图像特征_04

2. 目标属性考虑： 在选择图像时，作者考虑了目标的属性，例如目标的Concerntration、平均颜色比、目标-图像面积占比、目标数量等。表格1给出了这些属性的定义。图4可视化了该数据集的属性分布。

3. 注释标定： 需要注意的是，这些数据集的注释标准存在一些语义模糊性，包括广泛的概念（如“fish”和“bug”）、模糊的定义（如“smallfish”和“black cat”）、不一致的细粒度（如“orchid mantis”和“mantis”同时存在）。这些问题可能导致开放词汇预测的不合理和不可靠的结果。为此，作者调整了类别设置，以概念的普遍性作为类别定义的标准。

4. 数据划分： 此外，为了客观评估在未见过的类别上的开放词汇分割算法，文中提到将尽可能多的类别分配给测试集，并控制训练集到测试集的样本比例为7:3。具体而言，数据集中的14个类别用作训练集，其余的61个类别用于测试集。最终，样本的整体比例为7713:3770。

方法

OVCoser_人工智能_05

如上图所示，OVCoser 整体采用了常见的编码器-解码器范式。首先对输入对象利用冻结的 CLIP 文本编码器提取类别标签集的语义嵌入，以及视觉编码器提取多尺度图像特征。这两者作为对象分割的信息基础输入解码器，如下图（a）所示。结构性线索如深度和边缘也被引入以辅助迭代细化过程。最终，利用分割预测从高级图像特征中去除背景的干扰，以引导对象导向的视觉表示的生成。类别标签则由解码后的视觉嵌入和文本嵌入之间的相似匹配来确定。

OVCoser_数据集_06

语义引导（SG）

如上图(b)，OVCoser 在解码器中引入了归一化的文本嵌入，以突出语义相关线索。特别地，文章提出了一种语义引导组件SG，将概念线索注入图像特征的自增强中。具体而言，将图像特征fi线性映射到Q、K和V，同时将文本嵌入ft转换为类别引导向量Gt。Q和Gt之间的相似性反映了不同类别在空间位置上的激活情况。在图6b的Agg中，通过softmax操作突出显示了最相关类别信息的基础权重Wb用于空间引导，然后V被调制并输入到MHSA。

结构增强（SE）

现有方法表明，低级结构信息，如边缘和深度在 CSU 任务中起着重要作用，与人类视觉系统的机制密切相关。因此，作者提出了附加到低级SG的SE组件，用于集成边缘感知和深度感知线索并改进结构细节。具体而言，SG的输出被馈入两个单独的分支，包含卷积干和边缘估计的头，如图6a所示。来自第i层（i∈{1,2,3}）分支头部的边缘和深度logits映射，即Mi e和Mi d，直接进行监督。而干的输出fi e和fi d则被馈入SE，它们通过MHSA独立更新视觉特征，并与可学习权重α相结合，最终的结构如图6c所示。

迭代细化

如上所述，在SG组件中，图像特征和类别语义之间的聚合过程是非对齐的，因此需要数据驱动的优化。考虑到预训练CLIP的嵌入空间的对齐，引入了视觉和文本嵌入之间的相关矩阵Mcor作为SG的一部分，如图6b所示。同时，由于解码器输出对对象区域的强调，还引入了fobj，它来自通过最后一次迭代中粗糙分割预测池化的图像特征。通过结合这两者，获得了面向任务的对象线索，实际上受到了人类认知系统中自上而下注意机制的启发。这些对象线索在图像特征上的空间激活图Wr用于重新调制Wb。此外，迭代中的SE还有助于模型进一步优化纹理细节。为了尽可能从结构增强的辅助中获益而避免过度计算，迭代入口被设置为第三个解码层。

OVCoser_图像特征_07

不仅如此，针对CLIP在下游任务上的传递性能，作者还额外引入了CamoPrompts，设计了一套更适用于OVCOS的模板集，用于装饰类别名称。其具体形式在表格4中描述，相较于其他形式，CamoPrompts在分类性能上也取得了更好的效果。

OVCoser_迭代_08

最后，在每次迭代中，除了语义分割外，还需要执行深度估计和边缘估计作为辅助任务。对于分割预测，采用了常用的加权分割损失函数。而对于边缘估计，考虑到正负样本的不平衡问题，引入了Dice损失函数。深度估计则使用L1和SSIM损失的总和。

可以看出，所提方法的设计旨在充分利用CLIP的预训练语义知识和融合多源信息，以提高在开放词汇伪装目标分割任务中的性能。

实验

定量角度分析

OVCoser_迭代_09

性能对比： 文中通过与五种最近的开放词汇语义图像分割（OVSIS）方法进行比较，展示了OVCoser的性能优势。这些方法在三种不同的测试方案下进行评估，包括直接使用其训练权重测试、在测试之前基于训练权重进行微调，以及在上述提及的训练集上进行重新训练后测试。可以看到，在所有方案下，OVCoser consistently表现出色，超过了其他方法。
方法对不同方案的鲁棒性： 值得注意的是，现有方法在方案I下表现更好，这可能归因于它们在更大规模的COCOStuff数据集上的训练，提供了对任务更一般理解的知识。然而，直接微调（方案II）可能破坏这种知识，并在一定程度上导致性能下降。采用重新训练的方案III，由于相对较小规模的训练数据，这些模型可能无法充分学习更复杂的结构，导致性能下降。与此同时，现有方法也缺乏对OVCOS任务的有针对性的优化，进一步导致性能恶化。相比之下，OVCoser通过多源信息的迭代细化策略，在考虑任务的不同特征时实现了领先的性能。

定性角度分析

OVCoser_迭代_10

多样性对象表现： 在图7中，可视化了每种方法在各种数据上的结果。OVCoser展现出更好的性能和对各种对象的适应性，包括大型对象、中型对象、小型对象、复杂形状、模糊边缘、严重遮挡和背景干扰。
视觉效果： 图中显示，OVCoser在应对各种挑战性场景时具有更好的视觉效果，表现出对伪装和复杂环境的敏感性。它不仅能够准确分割各种大小和形状的对象，还能够处理模糊边缘、强烈遮挡和背景干扰等情况。

通过这些实验效果可以显而易见，即无论从定量和定性两个角度，OVCoser方法在处理开放词汇伪装目标分割任务上所表现出来的优越性能。

总结

本文主要围绕伪装目标检测领域提出了一种新方法：OVCOS，旨在探索更复杂自然场景中伪装对象的开放词汇语义图像分割（OVSIS），并由此构建了一个大规模的数据基准 OVCamo。同时，考虑到任务和数据的特点，作者们提出了一个强大的单阶段基线模型 OVCoser，利用了先进的预训练视觉语言模型如CLIP。具体而言，引入了精心设计的提示模板，以加强与任务相关的语义上下文。同时还引入了额外的多源信息，包括类别语义线索、深度空间结构、对象边缘细节，以及来自输出空间的自上而下的迭代引导。借助这些组件，OVCoser能够在复杂环境中感知和分割伪装对象。大量实验证明了所提方法的有效性，并且在OVCamo上相较于现有最先进的OVSIS算法表现出卓越性能。

原创作者: whaosoft 转载于: https://blog.51cto.com/whaosoft/11642407