【阅读笔记】Bi-level Dynamic Learning for Jointly Multi-modality Image Fusion and Beyond(2023IJCAI)

最新推荐文章于 2024-06-05 23:42:25 发布

magnetotell

最新推荐文章于 2024-06-05 23:42:25 发布

阅读量558

点赞数 18

文章标签：笔记图像处理数据结构算法

本文链接：https://blog.csdn.net/magnetotell/article/details/138974608

版权

文章标题：Bi-level Dynamic Learning for Jointly Multi-modality Image Fusion and Beyond（2023IJCAI）

文章代码：https://github.com/LiuZhu-CV/BDLFusion

摘要

近年来，多模态场景感知任务，如图像融合和场景理解，引起了人们的广泛关注。然而，早期方法总是考虑单方面提升单个任务而忽略其他任务，很少研究它们的潜在联系以进行联合提升。为了克服这些限制，作者建立了分层双任务驱动深度模型来弥合这些任务。具体来说，作者首先构建了一个图像融合模块来融合互补特征和级联双任务相关模块，包括视觉效果的鉴别器和用于特征测量的语义网络。作者提供了一个双层视角来制定图像融合和后续下游任务。为了结合不同的任务相关响应进行图像融合，作者将图像融合作为主要目标，将双模块视为可学习约束。此外，作者开发了一种有效的一阶近似来计算相应的梯度，并提出动态加权聚合来平衡融合学习的梯度。大量实验表明，作者方法的优越性，不仅产生了视觉上令人愉悦的融合结果，而且比最先进的方法实现了检测和分割的显着提升。

一、简介

文章遇到的问题：

最近很少有方法试图共同实现像素级图像融合和语义感知任务。这些工作大多直接级联相关网络，利用多任务损失函数的端到端训练来实现任务驱动的图像融合。不幸的是，有两个缺点限制了它们的性能。(i) 缺乏对潜在联系的研究：联合学习可能会对保持任务的鲜明特征造成障碍，无法形成内在的相互促进的关系(ii)多任务学习的不灵活权衡：现有方法大多利用手动超参数来平衡不同的损失函数，不能保证这两个任务的最佳性能。因此，本文的主要目标是实现全面的图像融合，以实现观察和语义理解的联合提升。

文章是怎么解决的：

作者开发了一种通用的双层动态学习范式，用于联合桥接多模态图像融合和语义感知任务之间的关系。具体来说，作者首先建立了一个分层深度模型，由图像融合模块、视觉鉴别器和常用的感知网络组成。引入双重可学习模块来分别测量视觉质量和语义感知，为图像融合提供不同的任务特定响应。更重要的是，提出了一种双层学习范式来制定分层模块的潜在联系。作者还推导出了具有有效近似的动态加权聚合，以共同实现视觉结果和感知的相互增强。图 1 展示了提出的策略，与最先进的技术相比，实现了更好的视觉吸引力融合图像和精确的语义感知性能（检测和分割）。

作者贡献总结：

• 考虑到图像融合的视觉质量和语义信息丰富度作为两个相关目标，我们提出了一种分层深度模型来实现相互增强的任务驱动图像融合。

• 对于训练策略，我们设计了一个双层公式，将图像融合与两个特定于任务的约束连接起来，提供了一种有效的方法来制定它们的内部互惠关系。

• 对于求解过程，我们驱动动态聚合解决方案，产生有效的梯度近似和自适应加权方案来自动平衡来自不同模块的梯度，以学习两个任务的最佳参数。

• 对三种多模态视觉任务（即图像融合、目标检测和语义分割）进行全面评估，以说明与最先进的方法相比的优越性。充分的分析结果也证实了有效性。

二、方法

2.1 研究动机

如前所述，最直接的方法是建立级联架构（表示为 N）来实现综合感知。这些网络可以直接分解为图像融合模块（表示为 F）和面向任务的模块（表示为 T）。这些主流架构可以表述为 N = F ◦ T ，通过结合不同的损失函数进行训练。我们认为现有方法依赖于手工制作的视觉测量，这对于联合学习来说是不适应和灵活的。因此，我们提出了一个分层双任务驱动模型。具体来说，对于图像融合，我们引入了两个密集残差块 [Yan et al., 2019] 将网络 F 与参数 ω 相结合，以保持源图像的互补特征以生成融合图像 u。假设红外和可见光图像的灰度图像为x和y，融合过程可以写成 u=F(x，y；ω)。为了衡量自适应强度分布，我们引入了一个参数为 θV 的鉴别器 Tv 来衡量与源图像的纹理相似度。将分类输出表示为 Zv，判别可以表示为 Zv = Tv(u; θV)。与手工制作的损失函数相比，该公式可以提供自适应的可学习响应。

此外，对于语义理解，选择两个具有代表性的目标检测网络[Tian et al.， 2019]和语义分割[Xie et al.， 2021])作为参数θp的任务模块Tp。类似地，任务解决方案可以写成 zp= Tp(u; θp)。因此，完整的级联架构可以表述为：

其中k∈{V, P}，其工作流程如图2 (a)所示。具体来说，与多任务学习相比，融合网络F实际上起到了鲁棒特征提取的作用(可以看作是“编码器”)。引入Tv和Tp作为特定任务的“解码器”，学习区分融合质量和测量信息丰富度的能力，以支持下游场景感知。

2.2 分层结构

最近提出了各种训练策略来解决高级任务驱动的图像融合，包括展开的端到端训练 [Liu et al., 2022a]、单独的阶段训练 [Wu et al., 2022] 和基于自适应循环的训练 [Tang et al., 2022]。然而，我们强调这些优化策略不能模拟视觉质量和语义重新解释之间的耦合互惠关系，这是为了平衡不同任务的影响而不正的。因此，设计学习范式同时实现“两个世界的最佳”是本文的核心目标。在这一部分中，我们提供了一个双层公式来描述整体优化过程，以说明视觉检查和语义感知之间的相互协作和指导。双层学习 [Liu et al., 2021b] 可以表述为：

其中 u = F(x, y; ω∗)。Φ 和 φ 分别是验证数据集和训练数据集的目标。λk 表示动态多任务权衡参数。更具体地说，主要部分是优化融合网络F来提取丰富的特征，这可能是视觉质量和语义感知的好处，如式(2)所示。此外，对语义理解的视觉效果和响应的识别是提供不同任务特定信息的两个重要约束，如式(3)所示。另一方面，式(2)和式(3)之间的层次公式嵌套了相互促进。融合后的图像u是后续任务学习的基本数据依赖。基于视觉任务的响应，任务驱动反馈可以帮助优化下游视觉任务的融合。

2.3 动态聚合解决方案

这部分详细介绍了解决上述双层公式的解决方案（等式（2）和等式（3））。为了加速训练收敛，作者首先引入了一种热启动策略来预训练融合网络。然后，提出了一种动态聚合解决方案来联合解决融合和感知。具体优化过程如图 2 (b) 所示。它实际上可以用分层优化来表示，即任务学习（等式（3））和任务引导融合学习（等式（2））。与现有的实际策略[Liu et al.， 2021b]之后，我们首先用几个步骤优化较低级别的任务约束，以估计最优参数θ * v和θ * p，以学习基于任务特定损失的视觉质量和感知测量。考虑到融合任务与低级视觉任务之间的相互影响，由 θk(ω)、k ∈ {V, P} 表示，分层任务之间实际上存在复杂的联系，可用于衡量融合图像变化所面临的任务响应。至于图像融合的优化，可以得到对偶梯度，可以写成：

具体来说，梯度 Gv 和 Gp 由 Φk(F(x, y; ω) ◦ Tk(θk) 计算。第一项是 ω 项的直接梯度，第二项描述了与后续感知任务的潜在耦合连接。

一阶近似。在文献中，求解方程式。 (4) 是一个具有挑战性的问题，其中瓶颈是计算二阶梯度（第二项）。受高斯-牛顿近似的启发，它提供了一阶计算来解决持续学习 [Zhou et al., 2021a] 和生成对抗学习 [Liu et al., 2022b]，作者引入了这种策略来近似梯度 Gv 和 Gp 中的 Hessian。基于隐函数理论，我们可以驱动∇ωθ(ω)=−∇2ω，θΦ(ω；θ)∇2θ，θΦ(ω；θ)−1。高斯-牛顿近似可以通过产生一阶向量来隐蔽复杂的Hessian矩阵，即

动态梯度聚合。另一个具有挑战性的问题是如何自适应地平衡梯度GV和GP来联合优化图像融合网络F。最近，随机损失加权 (RLW) [Lin et al., 2022] 在多任务学习 (MTL) 中是先进的，可以避免具有更高泛化和可比性能的局部最小值。利用正态分布 p(λ) 来生成 λV 和 λP，以避免专注于一个强相关任务而忽略另一个强相关任务。整个解决方案总结在 Alg 中。1.

2.4 损失函数

在这一部分中，我们将分别阐述具体的损失函数来定义φ和Φ，分别可以分为视觉质量和语义感知两部分。对于判别器Tv的学习[Isola et al.， 2017]，我们引入生成对抗机制来区分图像融合的视觉质量。具体来说，首先使用 VSM [Ma et al., 2017] 构建伪融合图像 um 以通过显着性权重图 (m1 和 m2) 保持显着信息，即 um = m1x + m2y。我们还梯度惩罚 Wasserstein 策略 [Gulrajani et al., 2017] 以保证学习的稳定性，因此训练 Tv 的具体公式可以写成

其中 RPenalty 是惩罚项，由 E ̃s∼Pfake [(‖∇uTV(u)‖2 − 1)2] 计算，η 是权衡项。此外，图像融合网络 F 可以看作是生成器。为了平衡像素强度并避免纹理伪影，还利用像素误差损失进行融合学习，即

至于 Tp 的语义感知优化，作者采用常见的特定于任务的损失函数来训练与感知相关的目标（即 ΦP 和 φP）。对于目标检测，我们利用FCOS [Tianet al.， 2019]的混合损失函数来定义目标。至于语义分割，在以前的文献中很常见，我们利用交叉熵损失函数。

师弟师弟