Unlocking Attributes’ Contribution to SuccessfulCamouflage: A Combined Textual and VisualAnalysis

for technology

已于 2024-08-29 09:48:40 修改

阅读量984

点赞数 17

文章标签：深度学习论文阅读人工智能计算机视觉

于 2024-08-28 21:32:39 首次发布

本文链接：https://blog.csdn.net/qq_53341188/article/details/141558707

版权

摘要

在伪装对象分割（COS）领域，尽管分割性能不断提高，但人们对有效伪装的潜在机制仍然知之甚少，类似于一个黑盒子。为了解决这一差距，我们提出了第一个全面的研究，以检验伪装属性对伪装图案的有效性的影响，为评估伪装设计提供了一个定量的框架。为了支持这一分析，我们编译了第一个包含伪装对象及其属性贡献的描述的数据集，称为COD-Text和x属性（COD-TAX）。此外，从人类处理信息的层次过程中汲取灵感：从总体场景的高级文本描述，到局部区域的中层总结，到用于详细分析的低级像素数据。我们已经开发了一个健壮的框架，结合了文本和视觉信息的COS任务，命名为基于眼球注视网络的归因线索建模（ACUMEN）。ACUMEN表现出了优越的性能，在三个广泛使用的数据集上优于9种领先的方法。最后，我们强调了来自我们研究中确定的属性的关键见解。ACUMEN表现出了优越的性能，在三个广泛使用的数据集上优于9种领先的方法。最后，我们强调了来自我们研究中确定的属性的关键见解。代码：http:// https://github.com/lyu-yx/ACUMEN

introduction

在硫化羰学习有悠久的历史，但仍在努力。硫化羰的早期方法使用了手工制作的特性，这些特性在某些场景下是有效的，但在广泛适用性方面不够。相比之下，最近在数据分割深度学习方面的研究显示出了显著的成功，利用梯度[19]、边缘[2,30]、不确定性[22]和多视图输入[37]等技术显示出了显著的改进。这些开发单独利用了视觉特征，但总结了额外的指导之前，强调了将额外的模式集成到硫化羰中的潜力。最近，大型视觉语言模型（LVLMs）的出现已经将重点转向利用预先训练过的LVLMs来提取知识，从而丰富了伪装的对象掩码回归过程[3,15]。然而，集成LVLMs直接带来了一些挑战，如在本地环境中的部署约束和与LVLMs使用相关的成本，以及对硫化羰任务的提示工程的复杂性。

设计理念

我们提出的基线敏锐（归属线索建模与注视网络）支持两个关键的见解：

1)认知科学表明，合并文本和视觉信息协同提高认知理解[33,36]，

和2)进化生物学强调了伪装模式创建的重要性（由猎物）及其识别（捕食者）在进化进程，强调了从颗粒属性洞察（设计）和更广泛的目标检测（破坏）的角度来分析伪装的必要性。

利用第一个见解，敏锐整合了伪装物体的文本场景描述。

为了解决第二个见解，我们评估了潜在的属性（例如，环境模式匹配，形状模仿）对伪装效果的贡献。更具体地说，我们首先收集一个富含图像描述和属性贡献的数据集。

随后，我们构建了一个分叉的多模态框架，它无缝地融合了文本和可视化分析。在文本分支中，该框架利用冻结的CLIP [39]文本编码器进行文本分析，促进了视觉特征的合成和集成到一个统一的潜在空间中。在视觉方面，我们分别引入了一个归因因子和一个注视预测因子来评估属性的影响和生成注视图。在此预测阶段之后，实现了一个属性-固定嵌入（AFE）模块，以最大限度地提高预测的属性贡献张量和固定图的效用。这种方法最后描绘了伪装物体的面具，通过变压器解码器和流线型投影仪完成。值得注意的是，在推理过程中，敏锐只与伪装图像操作，无需图像描述的必要性，独立于其他lvlm，从而将其作为一个唯一的视觉范式

贡献

据我们所知，敏锐构成了在硫化羰领域内对文本描述和属性贡献的第一次系统的探索。本研究揭示了通过纯粹的视觉方法的贡献来提高性能的潜力，并提供了对伪装机制的更深入的理解。我们的主要贡献详情如下：

1介绍COD-TAX数据集，它将文本信息与硫化羰进程集成起来。

2初步分析了伪装场景的属性贡献，提出了一种关于场景分析和设计的新视角。

3敏锐的发展，一个独特的双分支多模态融合框架，为硫化羰领域的跨模态分析设置了一个新的基准。

4的综合实验证明了敏锐的优越的性能，特别是优于现有的最先进的（SOTA）方法。

COD-TAX数据集分布概述：

COD-TAX数据集分布概述： (a) 17个属性类分为三个类别，比例显示平均贡献，Max表示最高出现。(b)文本描述长度，(c)词频词云，(d)两个COD-TAX示例。

属性被系统地分为三个主要类别：周围因子（SF）、伪装物体-自我因子（共价有机框架）和成像质量因子（IQF），如图1a所示。这种分类阐明了伪装的起源，区分了外部环境的影响，伪装实体的固有特征，以及摄影技术所施加的限制。每个类别都很详细，包括17个不同的因素，图1显示了一个彻底的分类。

注释和细化过程

为了确保我们的数据集的准确性和有效性，我们在30多名志愿者的参与下实施了一个详细的审查过程。这些个体负责对GPT4-V产生的图像描述进行批判性评估，以及每个图像的属性贡献比的准确性。为了提高评估的精度，我们对每幅图像都进行了三轮评估。根据从这些评估中获得的集体见解，我们准确地识别和修正了那些一直被评估者认为不正确的描述和属性贡献。这种严格的细化过程显著提高了数据集的精度和可靠性。全面的注释和细化工作需要超过500个人力小时。

我们在图1中提出了我们提出的COD-TAX的统计分析，提供了我们的数据集的全面概述。统计结果，包括平均值和极值，通过图1a中的玫瑰图进行可视化。在这个图表中，每个花瓣的大小代表了一般条件下不同属性的平均贡献值，突出了不同属性的不同潜在贡献。最大值的范围从0.21延伸到0.55，而平均值在0.004到0.21之间波动。此外，图1b提供了对每个图像的文本描述的分析，平均长度为26.52个单词，标准差为2.41，说明大约70%的描述在24~29个单词的范围内。在图1c中，我们阐明了单词使用的频率，证明了我们的数据集的主要特征是与环境、模式、背景、纹理、以及其他与伪装场景描述相关的方面。为了进一步描述我们的数据集的特征，我们在图1d中以两个例子来说明其潜在影响属性的分布比例，并附上详细的图像描述。

Methods

我们在图2中介绍了该敏锐度的综合结构。首先，我们将首先详细说明我们的潜在动机，然后提供在我们提出的方法中使用的模块的简要概述。

动机

从生物学上讲，伪装技术的进化受到捕食者的学习和概括能力，以及猎物的行为适应和旨在增强伪装效果[40]的决策过程的显著影响。然而，现有的研究主要是探索捕食者的视角，重点是开发先进的伪装对象分割方法。这些方法忽略了猎物的策略，特别是那些有效地削弱捕食者探测能力的属性。为了解决这种不平衡，我们的框架不仅设计描绘伪装对象，还通过在硫化羰中的文本描述来评估其伪装属性的有效性。该计划旨在提供伪装模式的全面抽象表示，反映捕食者和猎物的动态。

网络介绍

如图2所示，网络的框架包含了一个双分支架构，由一个文本分支和一个视觉分支（用青色突出显示），这对于训练阶段的特征提取和整合至关重要。文本分支利用CLIP模型，处理文本描述，以提取高级抽象特性，这受益于文本数据的压缩和高度抽象的特性。相反，视觉分支首先生成人类注视地图，以精确定位中层的局部注意区域，同时预测属性的贡献得分。然后，它利用这些见解进行分层嵌入，结合由CLIP视觉编码器提取的像素级视觉特征。

在推理阶段，为了增强模型的适用性，省略了文本分支，以消除对GPT4等lvlm的依赖，从而使推理过程完全依赖于视觉线索。

固定预测

在本研究中，我们使用了一个固定预测模块，使用来自CLIP视觉编码器的特征来预测固定情况，如图3所示。与传统的转换器架构仅依赖于最深的编码器特性[5]不同，我们的方法利用了多个中间特性。具体来说，ViT-L@336的第8、16和24层，以增强固定预测任务的信息。这些特征记为Fv n，其中n=012对应浅层到深层。使用这种策略，我们首先使用最深的视觉特征Fv 2作为查询，以确定它与连接的视觉特征的相关性。随后，我们坚持标准注意机制，循环向前N次，通过线性层和二维卷积层产生最终输出Fv f。固定预测过程包括：

这里，Ps表示位置嵌入，LN（·）表示层归一化，Cat（·）表示通道级连接，CAtt表示交叉注意机制，解码（·）×N表示N个级联译码器块。在本研究中，我们设置N = 3，如消融研究第小节中讨论的。5.3.最后，Conv（·）表示一个线性投影的序列，然后是一个二维卷积操作。对于损失函数公式，固定损失定义为：

其中，f ixgt为从志愿者[28]中收集的地面真实固定数据。总体固定预测损失是库背-leibler（KL）散度损失和相关系数（CC）损失的组合，与固定预测网络[41]的标准实践一致

属性的贡献的预测

我们将属性的贡献预测过程概念化为从高维到低维的转换，有效地作为一种降维技术，为了实现这一点，我们采用线性投影补充了归一化和退出策略来增强训练的鲁棒性。具体来说，给定Fv n作为输入，属性预测Fv a正式表示为：

这里，线性（·）表示线性投影，而BRD（·）表示批处理归一化、ReLU和Dropout操作的顺序积分。为了量化实际伪装属性贡献与其预测之间的差异，采用均方误差（MSE）损失进行优化，而attrgt表示标记的贡献比例：

Attributes-Fixation Embedding

为了有效地利用从固定和属性解码器中获得的属性信息和固定图，我们引入了如图4所示的属性-固定嵌入（AFE）方法。这种方法将这些元素作为补充先验与原始CLIP视觉特征。具体来说，视觉特征是通过三个不同的分支来处理的。在每个分支中，根据线性投影，所产生的特征被指向它们各自的门控机制。认识到属性之间潜在的相互关系和信道级特征重新校准的必要性，我们采用了（SE）机制[16]来促进融合属性信息。随后，利用固定图Fv f作为一种生物学上可解释的注意机制来增强每个分支内的特征。此外，为了对来自更深的ViT层的特征进行优先排序，这些特征在连续的层之后表现出更细的粒度，需要在求和之前为每个分支分配权重。最终，生成AFE特征F‘v，然后进行一个层归一化操作。整个AFE过程形式如下：

这里，+表示第i个分支，+表示属性信息增强的特征，+表示固定图进一步细化的特征，+是AFE过程的结果。Gate（·）操作采用SE机制将属性信息集成到视觉特征中。Mul（·）表示元素的乘法，P（·）表示元素方向的加法。对于W0到W2，赋值Wi分别为1、2和4，M=P2i=0Wi作为归一化常数。

掩模预测

在获得具有嵌入式伪装属性和固定信息的视觉特征，表示为F’v后，我们继续利用通用变压器解码器和输出投影仪来揭示最终的伪装对象掩模Mp。该面具的揭幕过程可表述为：

其中，Conv2d（·）表示二维卷积，CBR（·）表示卷积、批处理归一化和ReLU的顺序层。解码器（·）×M表示用M次迭代执行的变压器解码器，在第二节中讨论。5.3.下标向上4表示4次上采样操作。此外，损失函数Lmask是由加权二值交叉熵（wBCE）损失和加权交叉点对Union（wIoU）损失构造的，遵循传统的实践[30,46]：

总损失函数

为了加强对从CLIP文本编码器中获得的高级、浓缩的文本信息的使用，我们提出了一种新的一致性测量机制，旨在在整个训练阶段监控视觉特征的操作。我们已经开发了两种不同的投影仪来绘制整体地图描述特征记为Ft’，细化的视觉特征记为F’v，形成统一的潜在特征空间。特征Ft‘从CLIP文本编码器Ft s的输出中获得。考虑到这两个特征都与相同的伪装图像相关，它们应该在这个潜在空间中表现出一致性。为了衡量这种一致性，我们使用了一个一致性损失，其定义为：

其中，CS（·）表示余弦相似度损失。Proj（·）t和Proj（·）v表示映射到潜在特征空间的投影仪。总损失函数表示如下，其中α、β、γ作为平衡权值：

指标比较

COD10k上MAE 0.026

并不算太高之前的讲过的MLKG 0.019

用的是两个大的语言模型和SAM结合在一起的效果差了一点

一方面：

由于文本和视觉方面用的都不如MLKG，

这篇过于强调属性的贡献，当然是有用的，但是分的太细了。

损失计算：

加了属性预测比例的损失和定位图的损失

没有做只加Const 一致性损失。

个人感觉由于网络目的并不是强调伪装属性的贡献比例。

之后的计划：

将这篇对于不同属性贡献的思想和对应的伪装描述的的数据集和之前的结合一下

，调试一下看看有没有什么更好的结合文本和视觉的，突出文本描述里面类似一种伪装难度描述。

伪装难度描述，

文本描述

伪装策略描述

加入一个新的文本，输出伪装难度等级和伪装场景描述。

不同数据集之间的属性贡献。

在图7中，我们对不同测试数据集上的伪装模式进行了分析，使用直方图条来表示我们提出的属性的比例贡献，并使用误差条来表示标准偏差。对平均值的比较表明，COD10K和NC4K数据集主要具有环境模式匹配、形状模仿和环境纹理，它们总共占其伪装效果的50%以上。这些属性在所有数据集中都至关重要，尽管它们的贡献不同。例如，在COD10K和NC4K中，伪装模仿占伪装成功率的15%以上，但在CAMO中不到15%。我们还注意到，COD10K和NC4K的平均分布模式非常相似，反映了它们的大而可比的样本量（分别为2026和4040），表现出一致的伪装模式。相比之下，只有250张图像，显示的平均分布更容易发生异常。例如，CAMO中环境模式匹配的标准差为0.0279，显著高于COD10K（0.0225）和NC4K（0.0238）。此外，CAMO中的低分辨率属性具有明显较高的平均值和标准差，表明低分辨率图像的患病率较高，这可能影响了与COD10K（0.02592）和NC4K（0.03592）相比的MSE性能（0.0389）。这一趋势被其他方法所证实，如标签所示。1、进一步证实了我们的发现。进一步的讨论，包括故障案例的分析，可以在补充材料中找到。