现有方法的不足之处
- 高内在相似性:伪装物体与背景之间的高内在相似性使得检测变得困难,现有方法难以准确区分二者。
- 多样化的规模和模糊的外观:伪装物体在规模和外观上多样化,且可能严重遮挡,导致现有方法难以处理。
- 不一致的架构设计:现有的图像和视频伪装物体检测方法在架构设计和特征处理流程上存在不一致,难以同时处理静态和动态数据。
- 缺乏运动感知:许多图像模型缺乏对视频领域的运动信息感知,而视频模型在处理静态图像时需要额外补偿,增加了计算开销。
拟解决的问题
- 准确定位伪装物体:在不明显的外观和多种尺度条件下,如何准确定位伪装物体?
- 统一框架设计:如何设计一个兼容图像和视频特征处理的统一框架?
- 背景干扰抑制:如何抑制背景中的明显干扰,更加可靠地推断出伪装物体?
动机
人类在观察模糊图像或视频时,会采用放大和缩小的策略来更好地识别细节和差异。受此启发,论文提出了一种模拟这种“放大和缩小”策略的统一协同金字塔网络,以更好地捕捉伪装物体的细节和线索。
创新点
- 多头尺度集成单元(MHSIU):该单元通过多头空间交互机制筛选和聚合不同尺度的信息,增强了模型挖掘细微空间注意模式的能力。
- 丰富粒度感知单元(RGPU):通过组内迭代和通道间调制进行信息交互和特征细化,加强了特征表示。
- 差异感知自适应路由机制:该机制利用帧间差异信息实现视频特定的特征传播,统一了图像和视频COD任务的处理流程。
- 不确定性感知损失(UAL):设计了一种不确定性感知损失来辅助二值交叉熵损失,提高了模型对模糊区域的区分能力。
贡献
- 提出ZoomNeXt:一个通过特征筛选和聚合来统一处理图像和视频COD任务的框架,能够在复杂场景中可靠地捕捉伪装物体。
- 设计关键模块MHSIU和RGPU:通过多尺度特征提取和增强,实现了对伪装物体的准确检测。
- 差异感知的自适应路由机制:无缝结合图像和视频特征管道,增强了模型的可扩展性和灵活性。
- 不确定性感知优化策略:显著抑制了背景中的干扰和不确定性,提高了检测性能。
- 性能显著优于现有方法:在多个图像和视频COD基准测试上显著超过了现有的30种最先进方法。
这些创新点和贡献帮助ZoomNeXt在复杂的伪装物体检测任务中取得了显著的性能提升,提供了一个统一而高效的解决方案。
摘要
论文的摘要部分总结了文章的研究背景、方法、贡献以及实验结果,具体如下:
研究背景
伪装物体检测(COD)试图分割那些在视觉上与背景环境融为一体的物体。这在现实场景中是极其复杂和困难的任务。伪装物体与背景之间的高度相似性、物体尺度的多样性、模糊的外观以及严重的遮挡等因素增加了检测的难度。
提出的方法
为了应对这些挑战,本文提出了一种有效的统一协作金字塔网络,名为ZoomNeXt。这种网络模仿人类在观察模糊图像和视频时的行为,即放大和缩小的策略。具体来说,本文的方法采用了放大策略,通过多头尺度集成和丰富的粒度感知单元来学习具有区分性的混合尺度语义。这些单元被设计用来充分探索候选物体与背景环境之间难以察觉的线索。
- 多头集成单元:通过多头集成提供更多样的视觉模式。
- 路由机制:在时空场景中有效传播帧间差异,并且在处理静态表示时能够自适应地停用并输出全零结果。
这些机制为实现静态和动态COD的统一架构奠定了坚实的基础。
损失函数
考虑到由于难以区分的纹理带来的不确定性和模糊性,本文构建了一种简单而有效的正则化方法,即不确定性感知损失(uncertainty awareness loss),以鼓励在候选区域内进行更高置信度的预测。
实验结果
本文提出的框架在图像和视频COD基准测试中均一致地优于现有的最新方法,表现出高度的任务友好性。
关键词
- 图像伪装物体检测
- 视频伪装物体检测
- 图像和视频统一架构
总结
摘要简洁地介绍了研究背景、方法的创新之处、主要技术细节、以及实验结果。ZoomNeXt通过模拟人类观察行为,采用多尺度特征集成和不确定性感知损失,在伪装物体检测任务上取得了显著的性能提升。
相关工作
论文的"Related Work"部分总结了与伪装物体检测(COD)相关的研究背景和进展,主要包括以下几个方面:
2.1 伪装物体检测(COD)
伪装物体检测作为一个独立任务在计算机视觉领域的研究有着悠久的历史,最早的研究可以追溯到生物学领域。这种自然界中的行为可以被视为自然选择和适应的结果,实际上在艺术、流行文化和设计等人类生活的其他部分也有着深远的影响。在计算机视觉领域,伪装物体检测通常与基于人类视觉注意机制的显著性分析相关联。
不同于现有的显著性物体检测(SOD)任务,COD任务更加关注难以检测的物体(主要是由于物体体积过小、遮挡、隐藏或自我伪装)。由于目标物体属性的不同,这两个任务的目标也不同。COD任务的难度和复杂性远远超过了SOD任务,因为伪装物体与环境的高度相似性。现有的许多方法探索了在预测过程中引入辅助任务(如分类、边缘检测和物体梯度估计)以提高伪装物体检测的准确性。
2.2 条件计算
条件计算指的是一系列精心构建的算法,其中每个输入样本实际上只使用了一部分特征处理节点。近年来,这种方法在解决深度学习模型训练和推理的时间和计算成本问题上显示出了巨大的潜力。典型的例子是基于稀疏选择的专家混合技术(MoE),其在语言建模、机器翻译、多任务学习、图像分类和视觉语言模型等各种任务中展现了巨大潜力。现有的方法主要依赖MoE和门控策略来实现特征流节点的动态路由。
2.3 尺度空间整合
尺度空间理论旨在促进图像结构的最佳理解,是解决自然界中尺度变化的一个极为有效且理论上合理的框架。近年来,图像金字塔和特征金字塔的概念被广泛应用于计算机视觉领域。然而,常用的倒金字塔特征提取结构往往导致特征表示丢失过多的纹理和外观细节,这对强调区域和边缘完整性的密集预测任务是不利的。
为了提高特征表示的精确性,一些最新的基于CNN的COD方法和SOD方法探索了层间特征结合策略以增强特征表示,这些方法在对象的准确定位和分割方面带来了积极的影响。然而,现有方法忽略了由于数据本身结构信息的模糊性所导致的性能瓶颈,这使得单一尺度难以完全感知这些信息。
总结
总体而言,本文的方法模拟了人类观察混乱场景时放大和缩小的策略,从多个尺度同步考虑对象和背景之间的关系,从而全面感知伪装物体和混乱场景。这种方法在静态和动态场景下都能准确且稳健地分割伪装物体。
方法
作者使用Triplet Feature Encoder提取并获得 4 个stages 各自的三种不同尺度 0.5,1.0,1.5的特征之后,传入给 scale merging subnetwork(相当于是neck部分),进行特征融合,其中使用了MHSIU模块应用注意力进行特征选择并融合,然后融合之后的特征图送入decoder,decoder使用RGPU模块进行特征增强
3.1 总体架构
本节详细描述了ZoomNeXt的总体架构。本文通过模仿人类在观察混乱场景时的放大和缩小策略,提出了ZoomNeXt模型,旨在通过多尺度特征集成和丰富的粒度感知单元实现高效的伪装物体检测。
前提条件
给定输入静态图像 I ∈ R 3 × H × W I \in \mathbb{R}^{3 \times H \times W} I∈R3×H×W 和输入视频片段 { I t ∈ R 3 × H × W } t = 1 T \{I_t \in \mathbb{R}^{3 \times H \times W}\}_{t=1}^T {It∈R3×H×W}t=1T,其中3表示颜色通道的数量, H H H 和 W W W 分别表示高度和宽度。网络将生成灰度图 P P P 或包含值在0到1之间的片段 { P t } t = 1 T \{P_t\}_{t=1}^T {Pt}t=1T,这些值反映了每个位置可能属于伪装物体的概率。
放大策略
总体架构如图2所示。受到人类在观察混乱场景时放大和缩小策略的启发,作者认为不同的缩放尺度通常包含特定的信息。汇集不同尺度上的差异化信息有助于从混乱的场景中探索不明显但有价值的线索,从而促进伪装物体检测。为实现这一点,作者定制了一个基于单尺度输入的图像金字塔,通过重新缩放输入来模拟放大和缩小的操作。
特征处理
利用共享的三元特征编码器在不同尺度上提取特征,并将这些特征馈送到尺度合并子网络。为了整合这些包含丰富尺度特定信息的特征,作者设计了一系列基于注意力过滤机制的多头尺度集成单元(MHSIUs)。这样,这些辅助尺度就被集成到主尺度中,即放大和缩小操作的信息汇集。这将极大地增强模型提取关键和有信息量的语义线索的能力,以捕捉难以检测的伪装物体。之后,构建了丰富粒度感知单元(RGPUs)以自顶向下的方式逐渐整合多层次特征,从而增强混合尺度特征表示。该过程进一步增加了感受野范围,并在模块内实现了特征表示的多样化。所捕获的细粒度和混合尺度线索促进模型在混乱场景中准确分割伪装物体。
损失改进
为了克服数据固有复杂性引起的预测不确定性,设计了不确定性感知损失(UAL)来辅助BCE损失,使模型能够区分这些不确定区域并生成准确可靠的预测。
具体实现
- 特征编码器:使用共享的三元特征编码器提取不同尺度的特征。
- 尺度合并子网络:通过MHSIUs过滤和整合尺度特定信息。
- 丰富粒度感知单元(RGPUs):逐层整合特征,增强特征表示。
- 不确定性感知损失(UAL):辅助BCE损失,提高预测的置信度。
结论
ZoomNeXt模型通过模仿人类观察行为的放大和缩小策略,利用多尺度特征集成和丰富的粒度感知单元,在伪装物体检测任务上表现出色。这种统一的架构既适用于静态图像,又适用于动态视频片段,在复杂场景中实现了准确和可靠的伪装物体检测。
3.2 三元特征编码器
在本节中,论文详细介绍了ZoomNeXt的三元特征编码器模块,该模块用于提取和处理不同尺度的特征。
特征提取
三元特征编码器由特征提取网络和通道压缩网络组成。特征提取网络由常用的ResNet、EfficientNet或PVTv2去除了分类头的部分构成,通道压缩网络则用于进一步优化计算并获取更紧凑的特征表示。为了在效率和效果之间取得平衡,主尺度和两个辅助尺度分别设定为1.0×、1.5×和0.5×。通过这些结构,生成了对应于三个输入尺度的三组64通道特征图,即 { f i k } i = 1 5 \{ f_i^k \}_{i=1}^5 {fik}i=15,其中 k ∈ { 0.5 , 1.0 , 1.5 } k \in \{0.5, 1.0, 1.5\} k∈{0.5,1.0,1.5}。
处理步骤
-
输入和缩放:图像输入被缩放到不同的尺度,以模拟人类观察时的放大和缩小行为。三个特征图分别对应主尺度(1.0×)、放大尺度(1.5×)和缩小尺度(0.5×)。
-
特征编码:利用共享的三元特征编码器提取不同尺度下的特征,并生成三组64通道的特征图。特征提取网络可以是去除分类头的ResNet、EfficientNet或PVTv2模型,通道压缩网络进一步优化计算。
-
特征融合:这些特征图将被连续输入到多头尺度合并子网络和层次差分传播解码器进行后续处理。
通过这种设计,模型可以在不同尺度下提取和融合特征,从而捕捉到更多细粒度和混合尺度的语义线索,提升伪装物体检测的准确性和鲁棒性。
详细步骤
- 特征提取网络:使用ResNet、EfficientNet或PVTv2模型提取图像的深度特征。
- 通道压缩网络:进一步优化计算,获取紧凑的特征表示。
- 三组特征图:生成对应三个输入尺度的特征图,即 { f i k } i = 1 5 \{ f_i^k \}_{i=1}^5 {fik}i=15,其中 k ∈ { 0.5 , 1.0 , 1.5 } k \in \{0.5, 1.0, 1.5\} k∈{0.5,1.0,1.5}。
结论
三元特征编码器模块通过多尺度特征提取和压缩,在不同的尺度下生成丰富的特征表示。这些特征表示被后续的多头尺度合并子网络和层次差分传播解码器使用,以提高伪装物体检测的精度和鲁棒性。通过这种多尺度特征处理方法,ZoomNeXt模型能够更好地捕捉伪装物体与背景之间的细微差异,实现高效的伪装物体检测。
3.3 尺度合并子网络
本节详细描述了ZoomNeXt的尺度合并子网络模块,该模块用于融合和处理不同尺度的特征,以增强模型在复杂场景中识别伪装物体的能力。
这里下标
i
i
i 是 feature extractor 的不同 stage 下标,并且最终得到的
f
i
M
H
S
I
U
f_i^{MHSIU}
fiMHSIU 是经过 3 个 scale 经过注意力权重图加权之后 element-wise addtion 得到的 feature maps
第一个Transformation阐述注意力权重图,然后和第二个Transformation进行相乘
多头尺度集成单元(MHSIU)
为了筛选和融合尺度特定信息,作者设计了基于注意力机制的多头尺度集成单元(MHSIU)。通过这种单元的过滤和聚合,不同尺度的特征表达得以自适应地被强化。
尺度对齐
在进行尺度融合之前,特征 f i 1.5 f_i^{1.5} fi1.5 和 f i 0.5 f_i^{0.5} fi0.5 首先被调整到与主尺度特征 f i 1.0 f_i^{1.0} fi1.0 一致的分辨率。具体来说,对于 f i 1.5 f_i^{1.5} fi1.5,通过“最大池化 + 平均池化”结构进行下采样,以保留高分辨率特征中的有效和多样化响应。而对于 f i 0.5 f_i^{0.5} fi0.5,则通过双线性插值直接进行上采样。然后,这些特征被输入到后续的变换层。
多头空间交互
不同于单一模式依赖的空间注意形式,作者在这里对特征图的M组进行并行独立变换,这种设计借鉴了Transformer中的多头机制。这个设计有助于扩展模型挖掘多个细粒度空间注意模式的能力,并多样化特征空间的表示。具体来说,通过一系列卷积层计算得到若干三通道特征图。在每个注意力组中的级联softmax激活层之后,生成对应每个尺度的注意力图 A m k A_m^k Amk,并作为最终融合的权重。
数学表达式
以下是多头尺度集成单元的具体处理步骤和数学表达式:
-
尺度对齐:将 f i 1.5 f_i^{1.5} fi1.5 和 f i 0.5 f_i^{0.5} fi0.5 调整到与主尺度 f i 1.0 f_i^{1.0} fi1.0 一致的分辨率。
F i = [ U ( f i 0.5 ) , f i 1.0 , D ( f i 1.5 ) ] F_i = [U(f_i^{0.5}), f_i^{1.0}, D(f_i^{1.5})] Fi=[U(fi0.5),fi1.0,D(fi1.5)]其中, U U U 表示双线性插值, D D D 表示“最大池化 + 平均池化”操作。 -
多头空间交互:进行并行独立变换,生成多个三通道特征图并计算注意力图。
F i ^ = { trans ( F i , ϕ m ) } m = 1 M \hat{F_i} = \{ \text{trans}(F_i, \phi^m) \}_{m=1}^M Fi^={trans(Fi,ϕm)}m=1M A i = { softmax ( F i ^ , m ) } m = 1 M A_i = \{ \text{softmax}(\hat{F_i},m) \}_{m=1}^M Ai={softmax(Fi^,m)}m=1M F i ~ = { trans ( F i , γ m ) } m = 1 M \tilde{F_i}=\{ \text{trans}(F_i, \gamma^m) \}_{m=1}^M Fi~={trans(Fi,γm)}m=1M其中, trans ( F i , γ m ) \text{trans}(F_i, \gamma^m) trans(Fi,γm) 和 F i ^ = { trans ( F i , ϕ m ) } m = 1 M \hat{F_i} = \{ \text{trans}(F_i, \phi^m) \}_{m=1}^M Fi^={trans(Fi,ϕm)}m=1M是线性变换层, A i A_i Ai 是注意力图。 -
特征融合:通过注意力图加权融合不同尺度的特征。
f i M H S I U = { A i , m 1 ⊗ F ~ i , m 1 + A i , m 2 ⊗ F ~ i , m 2 + A i , m 3 ⊗ F ~ i , m 3 } m = 1 M f_i^{MHSIU}= \{ A_{i,m}^1 \otimes \tilde{F}_{i,m}^1 + A_{i,m}^2 \otimes \tilde{F}_{i,m}^2 + A_{i,m}^3 \otimes \tilde{F}_{i,m}^3 \}_{m=1}^M fiMHSIU={Ai,m1⊗F~i,m1+Ai,m2⊗F~i,m2+Ai,m3⊗F~i,m3}m=1M其中, ⊗ \otimes ⊗ 表示元素乘操作。 -
生成最终特征:将不同组中的增强特征沿通道维度拼接,并输入解码器进行进一步处理。
f i M H S I U = { A i , m 1 ⊗ F ~ i , m 1 + A i , m 2 ⊗ F ~ i , m 2 + A i , m 3 ⊗ F ~ i , m 3 } m = 1 M f_i^{MHSIU}= \{ A_{i,m}^1 \otimes \tilde{F}_{i,m}^1 + A_{i,m}^2 \otimes \tilde{F}_{i,m}^2 + A_{i,m}^3 \otimes \tilde{F}_{i,m}^3 \}_{m=1}^M fiMHSIU={Ai,m1⊗F~i,m1+Ai,m2⊗F~i,m2+Ai,m3⊗F~i,m3}m=1M通过这种设计,自适应地选择性聚合尺度特定信息,以探索不同尺度下的细微但关键的语义线索,从而提升特征表示。
总结
尺度合并子网络通过多头尺度集成单元(MHSIU)实现不同尺度特征的过滤和融合。这种设计借鉴了Transformer中的多头机制,能够自适应地选择和聚合不同尺度的信息,强化模型在复杂场景中捕捉伪装物体的能力。通过这种方法,ZoomNeXt能够更加准确和鲁棒地进行伪装物体检测。
关于MHSIU(multi-head scale integration unit)模块,作者为什么要设计2个group-wise transformation?
在论文中,作者设计了MHSIU(multi-head scale integration unit)模块来处理不同尺度的信息,特别是通过并行的多头机制来挖掘多尺度特征。设计两个group-wise transformation(分组转换)的原因主要有以下几点:
增强特征表达能力: 多尺度信息的表达通常具有不同的空间模式和语义特征,通过两个group-wise transformation,作者能够针对不同的尺度特征进行更细致的处理和筛选。每个分组都会通过独立的变换过程,这样可以在不同的特征子空间中更好地挖掘和增强那些对目标检测有价值的特征。多头机制(multi-head
paradigm)类似于Transformer中的多头注意力机制,它能够在并行的不同子空间中学习到更丰富的语义信息,从而提高模型对细粒度语义特征的捕捉能力。多样化特征交互: 通过多个并行的group-wise transformation,MHSIU模块可以使得每个特征分组有自己独立的处理路径,这避免了仅依赖单一模式来处理所有特征的限制。不同的group在不同的尺度特征上会有不同的聚合方式,使得模型能够适应不同场景下的目标检测需求,从而提升对伪装目标的识别精度。
平衡多尺度特征的权重: 通过两个group-wise transformation,MHSIU模块可以在不同尺度之间有效地融合特征。第一个group-wise transformation负责筛选出关键的特征,而第二个则通过加权融合将这些筛选出的特征进行合并,使得不同尺度的信息能够相互补充,从而提高整体的特征表征能力。
降低模型复杂性和计算开销: 使用分组的策略可以将模型的计算复杂性进行分解,每个分组在较小的子空间中进行计算,这样相比处理整个特征空间要更为高效。同时,通过并行计算的方式,也能提升计算效率,从而避免冗余的计算开销。
总的来说,设计两个group-wise transformation的核心目的在于通过多尺度特征融合和并行处理来增强模型的特征表征能力,同时保持计算效率,适应复杂的伪装目标检测场景。
为什么说MHSIU(multi-head scale integration unit)模块能够自适应地选择和聚合不同尺度的信息?如何理解自适应?
MHSIU(multi-head scale integration unit)模块被设计为能够自适应地选择和聚合不同尺度的信息,主要是因为它结合了注意力机制和多尺度特征融合的策略,这使得模型可以根据输入数据的特性自动调整对不同尺度特征的关注和处理方式。以下是如何理解MHSIU的自适应性的几个关键点:
1. Attention机制实现自适应特征选择
MHSIU模块通过注意力机制来自适应地筛选特征。注意力机制的核心思想是,模型根据输入的特征权重分配不同的注意力分数,这些权重是通过学习得到的。在MHSIU模块中,不同尺度的特征被通过multi-head机制进行并行处理,每个“头”都计算一组独立的注意力权重。这些权重决定了哪些尺度的特征更为重要。
自适应性体现在,模型并不预先设定某个尺度是最重要的,而是根据输入图像的具体特征,在不同尺度之间动态地调整注意力权重。对于不同的输入,模型可能会对某个尺度的特征赋予更高的权重,而对其他尺度赋予较低的权重。这样就实现了对不同场景的自适应特征选择。
2. 不同尺度特征的融合
MHSIU模块不仅能够筛选关键的尺度特征,还能够通过加权聚合来自不同尺度的信息。通过attention机制,来自不同尺度的特征被赋予相应的权重后进行加权相加,从而实现了不同尺度信息的融合。
自适应聚合的关键在于,不同输入场景下,模型会根据学习到的权重自适应地调整不同尺度特征的组合方式。比如,对于某些伪装目标,小尺度特征可能更具辨识度,而对于另一些目标,可能大尺度特征更重要。MHSIU能够根据当前输入动态调整这些权重,使得输出特征更加准确。
3. 多头机制并行处理多尺度信息
MHSIU采用了multi-head机制,这使得每个“头”可以并行地处理不同的尺度信息。每个头独立地计算注意力权重并聚合信息,最终通过并行融合的方式得到更为丰富的多尺度特征表达。
自适应性体现在多个并行处理的“头”能够分别学习到不同的尺度组合策略。这样,模型不仅在全局上对不同尺度自适应选择,在局部的细节上也能对某些特定尺度进行优先处理。
4. 自适应对不同输入的响应
自适应的根本含义是模型能够根据输入的具体情况灵活调整计算流程和策略。对于MHSIU而言,面对不同的输入(如不同类型的伪装物体、不同的场景复杂性),它能够自适应地调整特征选择和融合方式。例如,对于复杂的背景和伪装程度高的目标,MHSIU可能会更关注小尺度的细节特征;而对于简单场景中的大目标,模型可能会更关注大尺度的整体特征。
总结:
MHSIU模块的自适应性主要体现在它能够根据输入数据的特点,通过attention机制动态调整不同尺度特征的选择和权重分配。这种自适应的特征选择和聚合使得模型在面对不同场景和伪装目标时能够灵活应对,提升伪装目标检测的精度和鲁棒性。
3.4 层次差分传播解码器
本节详细描述了ZoomNeXt的层次差分传播解码器模块,该模块用于整合和增强多尺度特征,以实现更精确的伪装物体检测。
丰富粒度感知单元(RGPU)
为了进一步增强特征表示,作者设计了丰富粒度感知单元(RGPU),该单元通过组间迭代和通道间调制实现特征的交互和细化。
输入
RGPU
i
\text{RGPU}_i
RGPUi的输入
f
i
^
\hat{f_i}
fi^ 包括来自MHSIU的多尺度融合特征
f
i
M
H
S
I
U
f_i^{MHSIU}
fiMHSIU 和来自下一级 RGPU 的特征
f
i
+
1
R
G
P
U
f_{i+1}^{RGPU}
fi+1RGPU。具体形式为:
f
i
^
=
f
i
M
H
S
I
U
+
U
(
f
i
+
1
R
G
P
U
)
\hat{f_i} = f_i^{MHSIU} + \text{U}(f_{i+1}^{RGPU})
fi^=fiMHSIU+U(fi+1RGPU) 其中
U
\text{U}
U 是上采样操作
组间迭代
首先通过1×1卷积扩展特征图的通道数,然后沿通道维度将特征图分为 G G G 组 { g j } j = 1 G \{g_j\}_{j=1}^G {gj}j=1G(下标 j j j 是分组号)。特征组间的交互按迭代方式进行:
- 第1组:第一组特征 g 1 g_1 g1 通过卷积块后分为三部分 { g 1 ′ 1 , g 1 ′ 2 , g 1 ′ 3 } \{g_1'^1, g_1'^2, g_1'^3\} {g1′1,g1′2,g1′3}。其中, g 1 ′ 1 g_1'^1 g1′1 用于与下一组进行信息交换, g 1 ′ 2 g_1'^2 g1′2 和 g 1 ′ 3 g_1'^3 g1′3 用于通道间调制。
- 中间组:对于每个中间组 g j ( 1 < j < G ) g_j(1<j<G) gj(1<j<G),将其与前一组的第一部分 g j − 1 ′ 1 g_{j-1}'^1 gj−1′1 通道维度拼接后通过卷积块,再分为三部分。依次类推。
- 最后一组:仅包含 g G ′ 2 g_G'^2 gG′2 和 g G ′ 3 g_G'^3 gG′3,没有 g G ′ 1 g_G'^1 gG′1
这些特征组的迭代混合策略相当于一个综合多路径金字塔结构,通过部分参数共享来增强特征表达。
通道间调制
特征
[
{
g
j
′
2
}
j
=
1
G
]
[\{g_j'^2\}_{j=1}^{G}]
[{gj′2}j=1G] 经过拼接并且经过一个小的卷积神经网络转换为特征调制向量
ω
\omega
ω 后,用于加权另一个拼接特征为:
f
i
ˉ
=
ω
⋅
[
{
g
j
′
3
}
j
=
1
G
]
\bar{f_i} = \omega \cdot [\{g_j'^3\}_{j=1}^{G}]
fiˉ=ω⋅[{gj′3}j=1G]
输出
RGPU的输出由堆叠的激活、归一化和卷积层得到,定义为:
f
i
R
G
P
U
=
fuse
(
f
i
^
+
f
i
ˉ
)
f_i^{RGPU} = \text{fuse}(\hat{f_i} + \bar{f_i})
fiRGPU=fuse(fi^+fiˉ)基于级联的RGPUs和若干堆叠的卷积层,生成单通道的 logits 图,通过sigmoid函数生成高亮伪装物体的置信度图
P
P
P 。
总结
层次差分传播解码器通过丰富粒度感知单元(RGPU)实现特征组间和通道间的交互和细化。通过差分感知条件计算机制,模型能够在视频场景中捕捉帧间运动线索,实现图像和视频COD任务的统一。这种设计增强了特征表示的多样性和细粒度,提升了伪装物体检测的准确性和鲁棒性。
3.5 损失函数
本节详细描述了ZoomNeXt在训练过程中使用的损失函数,以提高伪装物体检测的准确性和鲁棒性。
二值交叉熵损失 (Binary Cross Entropy Loss, BCE)
BCE损失函数广泛应用于各种二值图像分割任务中,其数学形式为:
l
i
,
j
BCE
=
−
g
i
,
j
log
p
i
,
j
−
(
1
−
g
i
,
j
)
log
(
1
−
p
i
,
j
)
l_{i,j}^{\text{BCE}} = -g_{i,j} \log p_{i,j} - (1 - g_{i,j}) \log (1 - p_{i,j})
li,jBCE=−gi,jlogpi,j−(1−gi,j)log(1−pi,j)其中,
g
i
,
j
g_{i,j}
gi,j 是位置
(
i
,
j
)
(i, j)
(i,j) 处的真实值,取值为 0 或 1,而
p
i
,
j
p_{i,j}
pi,j 是对应位置的预测值,取值范围在 0 到 1 之间。
由于COD数据的复杂性,仅使用BCE训练时,模型会在预测中产生严重的模糊性和不确定性,无法准确捕捉伪装物体,从而降低了检测的可靠性。
不确定性感知损失 (Uncertainty Awareness Loss, UAL)
为了在决策中强化模型的“信心”,并增加对模糊预测的惩罚,作者设计了一种强约束作为BCE的辅助,即不确定性感知损失 (UAL)。在伪装物体的最终概率图中,像素值范围为 [0, 1],其中 0 表示像素属于背景,1 表示像素属于伪装物体。因此,预测值越接近 0.5,关于该像素属性的确定性越低。为了优化这一点,一种直接的方法是将模糊性作为这些困难样本的辅助损失。
首先需要定义像素 x x x 的模糊度度量,在 x = 0.5 x = 0.5 x=0.5 时达到最大值,在 x = 0 x = 0 x=0 或 x = 1 x = 1 x=1 时达到最小值。作为损失函数,该函数应当是平滑且连续的,并且只有有限个不可微点。为简洁起见,作者经验性地考虑了以下两种形式:
- 基于幂函数:
Φ pow α ( x ) = 1 − ∣ 2 x − 1 ∣ α \Phi_{\text{pow}}^{\alpha}(x) = 1 - |2x - 1|^{\alpha} Φpowα(x)=1−∣2x−1∣α - 基于指数函数:
Φ exp α ( x ) = e − ( α ( x − 0.5 ) ) 2 \Phi_{\text{exp}}^{\alpha}(x) = e^{-(\alpha(x - 0.5))^2} Φexpα(x)=e−(α(x−0.5))2此外,受加权BCE损失形式的启发,还尝试使用 α = 1 + Φ pow 2 ( x ) \alpha = 1 + \Phi_{\text{pow}}^{2}(x) α=1+Φpow2(x) 作为BCE损失的权重,以增加困难像素的损失。经过大量实验,作者最终采用以下形式的UAL: l UAL i , j = 1 − Δ i , j = 1 − ∣ 2 p i , j − 1 ∣ 2 l_{\text{UAL}}^{i,j} = 1 - \Delta_{i,j} = 1 - |2\textbf{p}_{i,j} - 1|^2 lUALi,j=1−Δi,j=1−∣2pi,j−1∣2其中, Δ \Delta Δ 表示预测的确定性。这里 α \alpha α 是一个控制模糊度增长速度的超参数
总损失函数
最终的总损失函数可以表示为: L = L BCE + λ L UAL L = L_{\text{BCE}} + \lambda L_{\text{UAL}} L=LBCE+λLUAL其中, λ \lambda λ 是平衡系数。作者设计了三种 λ \lambda λ 的调整策略,即固定常数值、递增线性策略和递增余弦策略。实验结果表明,递增策略,尤其是“余弦”策略,确实实现了更好的性能,因此默认使用余弦策略。
总结
ZoomNeXt 在训练过程中采用了二值交叉熵损失 (BCE) 和不确定性感知损失 (UAL) 的组合,以提高模型在伪装物体检测中的准确性和可靠性。BCE损失用于处理常规的二值分类问题,而UAL则针对复杂数据中的模糊预测进行额外的约束,通过强化模型在决策中的“信心”来减少预测的不确定性。最终的损失函数通过调整平衡系数 λ \lambda λ 达到最佳效果,使得ZoomNeXt在静态图像和视频COD任务中均表现出色。
怎么魔改这个损失函数?
改进目标:
- 与原始UAL不同:确保新设计的损失函数与作者提出的UAL有显著区别。
- 保持对模糊区域的惩罚:在 p = 0.5 p = 0.5 p=0.5 附近,依然能有效惩罚模糊预测,但方式不同于作者提出的公式。
新的设计方向:
可以尝试通过 基于熵的度量 来设计一个新的损失函数。熵本质上是用来衡量系统的不确定性的,因此适合用于惩罚不确定的预测。
新的损失函数思路:
我们定义一个新损失函数,称之为 Entropy-based Ambiguity Loss (EAL),其思想是利用预测值的熵来衡量不确定性,并对熵值较高的像素进行额外的惩罚。
熵的定义:
熵通常用于衡量分类任务中预测分布的不确定性,定义如下: H ( p ) = − [ p log ( p ) + ( 1 − p ) log ( 1 − p ) ] H(p) = -[p \log(p) + (1 - p) \log(1 - p)] H(p)=−[plog(p)+(1−p)log(1−p)]其中 p p p 表示像素预测的概率值。熵在 p = 0.5 p = 0.5 p=0.5 时达到最大值,表示模型最不确定,而在 p = 0 p = 0 p=0 或 p = 1 p = 1 p=1 时熵为0,表示模型最为确定。
新损失函数设计:
我们将预测的熵与预测值结合,设计出Entropy-based Ambiguity Loss (EAL),公式如下:
你提出的两个表达式都有在 $ x = 0.5 $ 时达到最大值,在 $ x = 0 $ 和 $ x = 1 $ 时达到最小值的特性。现在,我们可以通过几种方式来将这两个表达式结合成一个新的损失函数。
1. 直接加权求和
最简单的方式是将这两个表达式按比例加权相加,形成新的损失函数:
L ( p i , j ) = α [ − p i , j log ( p i , j ) − ( 1 − p i , j ) log ( 1 − p i , j ) ] + β ( 1 − ∣ 2 p i , j − 1 ∣ 2 ) L(p_{i,j}) = \alpha \left[-p_{i,j} \log(p_{i,j}) - (1 - p_{i,j}) \log(1 - p_{i,j})\right] + \beta \left(1 - |2p_{i,j} - 1|^2\right) L(pi,j)=α[−pi,jlog(pi,j)−(1−pi,j)log(1−pi,j)]+β(1−∣2pi,j−1∣2)
其中, α \alpha α 和 β \beta β 是两个超参数,用于调整两个损失项的相对重要性。这样你可以通过实验调节这两个参数,找到合适的组合。
2. 几何平均
另一种融合方式是使用几何平均来组合两部分,这在某些情况下可以保留两者的特性:
L ( p i , j ) = 2 ( − [ p i , j log ( p i , j ) + ( 1 − p i , j ) log ( 1 − p i , j ] ) × ( 1 − ∣ 2 p i , j − 1 ∣ 2 ) L(p_{i,j}) = 2\sqrt{\left(-[p_{i,j} \log(p_{i,j}) + (1 - p_{i,j}) \log(1 - p_{i,j}]\right) \times \left(1 - |2p_{i,j} - 1|^2\right)} L(pi,j)=2(−[pi,jlog(pi,j)+(1−pi,j)log(1−pi,j])×(1−∣2pi,j−1∣2)
几何平均相比加权和的方式更加保守,两部分的贡献是平等的,不受超参数的显式影响。
3. 通过门控机制融合
你也可以考虑引入一个门控函数来控制两种损失函数的权重。例如,使用一个平滑函数(如 sigmoid 函数)根据 p i , j p_{i,j} pi,j 的取值调整两个损失函数的贡献:
L ( p i , j ) = σ ( p i , j ) [ − p i , j log ( p i , j ) − ( 1 − p i , j ) log ( 1 − p i , j ) ] + ( 1 − σ ( p i , j ) ) ( 1 − ∣ 2 p i , j − 1 ∣ 2 ) L(p_{i,j}) = \sigma(p_{i,j}) \left[-p_{i,j} \log(p_{i,j}) - (1 - p_{i,j}) \log(1 - p_{i,j})\right] + (1 - \sigma(p_{i,j})) \left(1 - |2p_{i,j} - 1|^2\right) L(pi,j)=σ(pi,j)[−pi,jlog(pi,j)−(1−pi,j)log(1−pi,j)]+(1−σ(pi,j))(1−∣2pi,j−1∣2)
其中, σ ( p i , j ) \sigma(p_{i,j}) σ(pi,j) 是 sigmoid 函数,定义为:
σ ( p i , j ) = 1 1 + e − γ ( p i , j − 0.5 ) \sigma(p_{i,j}) = \frac{1}{1 + e^{-\gamma (p_{i,j} - 0.5)}} σ(pi,j)=1+e−γ(pi,j−0.5)1
通过调整参数 γ \gamma γ,可以控制两个损失项的平滑切换。
或者 ( 1 − ∣ 2 p i , j − 1 ∣ 2 ) ⋅ e − ∣ 2 p i , j − 1 ∣ (1 - |2p_{i,j} - 1|^{2})\cdot e^{-|2p_{i,j} - 1|} (1−∣2pi,j−1∣2)⋅e−∣2pi,j−1∣ 或者 1 − tanh ( ∣ 2 p i , j − 1 ∣ 2 ) 1-\tanh\left(\left|2p_{i,j}-1\right|^{2}\right) 1−tanh(∣2pi,j−1∣2) 或者 1.3 tanh ( 1 − ∣ 2 x − 1 ∣ 2 ) 1.3\tanh\left(1-\left|2x-1\right|^{2}\right) 1.3tanh(1−∣2x−1∣2)
总结
以上几种方法都可以用于将两个满足相同性质的损失函数融合在一起。可以通过加权求和、几何平均或引入门控机制的方式构建新的损失函数,根据具体问题场景的需要进行选择。
解释:
-
熵的引入:我们使用熵来捕捉预测的不确定性,熵在预测值接近0.5时达到最大,表示最不确定的状态。相比于原来的基于距离的度量,熵本身能够更清晰地反映不确定性的高低。
-
结合预测偏差:通过与 ∣ 2 p i , j − 1 ∣ k |2p_{i,j} - 1|^k ∣2pi,j−1∣k 结合,新损失函数不仅考虑了不确定性,还对预测值偏离真实值的程度进行了惩罚。此时,熵起到了动态调整的作用,使得模型在高熵区域(即不确定区域)进行更强的学习。
-
改进与区别:这个新的设计与原论文中的UAL不同之处在于,它引入了熵作为不确定性的度量,而不再仅仅依赖于 ∣ 2 p i , j − 1 ∣ |2p_{i,j} - 1| ∣2pi,j−1∣ 这种基于距离的度量。同时,它结合了两种因素(不确定性和偏差)进行惩罚,而不是单一因素。
新损失函数名称:
可以命名为 Entropy-based Ambiguity Loss (EAL),即基于熵的不确定性模糊度损失。这一名称突出了熵作为不确定性度量的核心作用。
总结:
- 新的Entropy-based Ambiguity Loss (EAL) 引入了熵来衡量预测的不确定性,同时结合了预测值与真实值的偏差进行惩罚。
- 这个损失函数不仅对模糊预测区域进行了额外惩罚,还通过熵动态调整惩罚强度,确保了模型对高不确定区域的关注。
- 该设计与原始的Uncertainty Aware Loss (UAL) 不同,熵的引入提供了新的思路,可以更具创新性地处理不确定性。
你可以基于这个新的设计进行实验,并调整超参数 k k k 和熵的系数,来观察模型性能的变化。
4. 实验
实验结果对比
消融实验结果
4.1.3 实现细节
本节详细描述了ZoomNeXt在实现过程中的一些关键技术细节。
数据预处理
- 图像和视频处理:所有图像和视频帧均调整到相同的分辨率,以确保一致的输入大小。
- 数据增强:使用常见的数据增强技术,如随机裁剪、水平翻转和颜色抖动,以提高模型的泛化能力。
模型训练
- 初始化:使用预训练的ResNet、EfficientNet或PVTv2模型作为特征提取器的初始化权重,以加速训练过程和提高模型性能。
- 优化器:采用Adam优化器进行模型训练,初始学习率为0.0001,使用余弦退火策略逐渐降低学习率。
- 批量大小:图像批量大小设为16,视频批量大小设为4,以适应不同的数据类型。
- 损失函数:训练过程中使用二值交叉熵损失(BCE)和不确定性感知损失(UAL)的组合,总损失函数为 L = L BCE + λ L UAL L = L_{\text{BCE}} + \lambda L_{\text{UAL}} L=LBCE+λLUAL,其中 λ \lambda λ 采用递增余弦策略进行调整。
模型架构
- 特征提取:使用共享的三元特征编码器从输入图像或视频帧中提取多尺度特征。
- 尺度合并:通过多头尺度集成单元(MHSIU)对不同尺度的特征进行融合和过滤,增强特征表示。
- 解码:使用层次差分传播解码器,通过丰富粒度感知单元(RGPU)进行特征的细化和增强,生成最终的伪装物体检测结果。
训练细节
- 训练时长:模型在一个8核CPU和两个NVIDIA V100 GPU上训练大约需要24小时,以保证足够的训练轮数和模型收敛。
- 早停策略:在验证集上监控模型性能,采用早停策略防止过拟合。
实验设置
- 数据集划分:按照标准的数据集划分方法,将数据集分为训练集、验证集和测试集,以确保模型评估的公平性和一致性。
- 评价指标:使用常见的评价指标,如F-measure、MAE和IoU,评估模型在伪装物体检测任务中的性能。
总结
实现细节部分描述了ZoomNeXt在数据预处理、模型训练、模型架构和训练细节等方面的关键技术细节。通过这些细节的优化,ZoomNeXt能够在伪装物体检测任务中实现高效、准确和鲁棒的性能。
4.3 消融研究 (Ablation Studies)
本节详细描述了ZoomNeXt在不同模块和损失函数配置下的性能,以验证各个组件对模型整体性能的影响。
4.3.1 模型组件的影响
作者进行了不同配置的实验来评估每个组件的有效性,包括多头尺度集成单元(MHSIU)、丰富粒度感知单元(RGPU)和不确定性感知损失(UAL)。具体实验如下:
- 基线模型:只使用基本的特征提取网络和简单的解码器。
- 添加MHSIU:在基线模型上添加多头尺度集成单元,以验证其对特征融合和增强的效果。
- 添加RGPU:在基线模型上添加丰富粒度感知单元,评估其在细化特征表示上的贡献。
- 添加UAL:在基线模型上添加不确定性感知损失,测试其在处理预测不确定性上的作用。
- 完整模型:包含所有组件(MHSIU、RGPU、UAL)的完整模型。
通过对比这些不同配置的实验结果,作者发现每个组件都对提升模型性能有显著贡献,且完整模型在所有评价指标上均表现最佳。
4.3.2 多头尺度集成单元的影响 (MHSIU)
为了进一步验证MHSIU的有效性,作者对不同头数的MHSIU进行了实验,分别设置为1头、2头、4头和8头。实验结果显示,随着头数的增加,模型性能逐渐提升,但在头数达到4时性能增益趋于平缓。这表明4头的MHSIU在性能和计算复杂度之间取得了良好的平衡。
4.3.3 丰富粒度感知单元的影响 (RGPU)
类似地,作者对RGPU的不同配置进行了实验,评估其对模型性能的影响。通过调整RGPU中特征组的数量和交互策略,实验结果显示增加特征组的数量和优化交互策略均能显著提升模型性能,验证了RGPU在细化特征表示上的有效性。
4.3.4 不确定性感知损失的影响 (UAL)
为了验证不确定性感知损失(UAL)的有效性,作者对不同形式的UAL进行了实验,包括基于幂函数和指数函数的不同形式,以及不同的平衡系数 λ \lambda λ 设置。实验结果表明,使用幂函数形式的UAL效果最佳,且采用递增余弦策略调整 λ \lambda λ 能进一步提升模型性能。
4.3.5 总损失函数的调整策略
作者设计了三种 λ \lambda λ 的调整策略,即固定常数值、递增线性策略和递增余弦策略。通过实验对比不同策略的效果,结果显示递增余弦策略能显著提升模型在处理不确定性上的性能,因此被默认采用。
总结
消融研究通过逐步添加和调整模型的各个组件,验证了多头尺度集成单元(MHSIU)、丰富粒度感知单元(RGPU)和不确定性感知损失(UAL)对模型整体性能的显著提升作用。实验结果表明,这些组件在特征融合、特征细化和处理预测不确定性上均起到了关键作用,完整模型在所有评价指标上表现最佳。这些研究结果为模型设计提供了重要的验证和支持。
4.3.4 混合尺度输入方案 (Mixed-scale Input Scheme)
在本节中,作者探讨了混合尺度输入方案在伪装物体检测中的影响。具体来说,他们研究了不同的输入尺度组合对模型性能的影响。
实验设置
为了评估混合尺度输入方案的效果,作者设计了几组实验,每组实验都使用不同的输入尺度组合进行训练和测试。具体的输入尺度组合包括:
- 单一尺度输入:仅使用原始输入尺度(1.0×)。
- 双尺度输入:使用原始输入尺度(1.0×)和放大尺度(1.5×)或缩小尺度(0.5×)。
- 三尺度输入:同时使用原始输入尺度(1.0×)、放大尺度(1.5×)和缩小尺度(0.5×)。
实验结果
实验结果如表8所示,通过对比不同输入尺度组合在各个评价指标上的表现,作者发现:
- 单一尺度输入:仅使用原始输入尺度(1.0×)时,模型的性能较为一般。
- 双尺度输入:使用双尺度输入(1.0×和1.5×或0.5×)时,模型性能有所提升。这表明添加一个额外的尺度有助于模型捕捉到更多的细节信息。
- 三尺度输入:同时使用三种尺度输入(1.0×、1.5×和0.5×)时,模型性能进一步提升,达到了最佳效果。这表明不同尺度的输入可以互补,从而提供更丰富的特征信息,提升模型的检测能力。
结论
通过混合尺度输入方案的实验,作者得出以下结论:
- 多尺度输入有助于提升模型性能:与单一尺度输入相比,多尺度输入能够提供更丰富的特征信息,从而提升模型在伪装物体检测任务中的表现。
- 三尺度输入效果最佳:同时使用原始尺度、放大尺度和缩小尺度的输入方案能够在各个评价指标上均表现出色,表明这种混合尺度输入方案最为有效。
总结
混合尺度输入方案通过结合不同尺度的输入特征,显著提升了模型在伪装物体检测任务中的性能。实验结果表明,与单一尺度输入相比,多尺度输入能够提供更丰富的特征信息,尤其是三尺度输入方案效果最佳。这些发现进一步验证了作者提出的ZoomNeXt模型在处理复杂场景中的有效性,并为多尺度特征融合提供了理论支持。
− [ p i , j log ( p i , j ) + ( 1 − p i , j ) log ( 1 − p i , j ) ] -[p_{i,j} \log(p_{i,j}) + (1 - p_{i,j}) \log(1 - p_{i,j})] −[pi,jlog(pi,j)+(1−pi,j)log(1−pi,j)]