【论文阅读】A Task-guided, Implicitly-searched and Metainitialized Deep Model for Image Fusion

A Task-guided, Implicitly-searched and Metainitialized Deep Model for Image Fusion(2024TPAMI)

现有方法存在的问题

(i)大多数都专注于提升融合图像的视觉效果,而不是考虑下游视觉任务,这给场景理解应用带来了障碍。

(ii)当前的融合方法设计了增加深度或宽度的手工架构,这依赖于冗长的专用调整;因此,它们不可避免地导致耗时的结构工程。

(iii)这些方法是通过特定的训练数据来学习的,无法获得各种融合场景的泛化能力。

本文贡献

1.为了将任务相关的指导纳入图像融合的学习中,我们建立了一种约束策略来对下游任务的图像融合进行建模,以打破大多数融合方法忽略视觉任务信息的瓶颈。

2.在架构构建方面,我们提出了一种隐式搜索策略,可以自动高效地发现融合模型,避免了主流设计方法的繁琐调整和庞大的结构工程。

3.在参数训练方面,我们开发了借口元初始化策略来学习不同融合数据之间的内在特征提取,从而使融合模型具有只需少量数据即可实现对各种场景的快速适配的能力。

4.我们相继将我们的融合方法应用于各种下游视觉感知任务。对增强和语义理解任务的客观和主观比较以及充分的评估证明了我们所提出机制的优越性和有效性。

本文方法

具有任务指导的图像融合

从嵌套优化的角度来看,图像融合的特定任务目标可以分为两部分:图像融合网络 NF 和视觉任务网络 NT。视觉任务的目标是通过融合图像 IF 生成任务相关的输出 y,实现视觉感知。学习过程可以表示为 y = NT(IF; θT)。这种框架能将单模态视觉任务的通用解决方案转移到我们的框架中,从而实现高效的 NT 组合。通过这种方式,我们将视觉任务与图像融合过程结合起来,图像融合的优化受到信息丰富度 lF 和特定任务维护比例 lT 损失的限制。以任务表现的有效反馈作为融合标准,可以实现面向任务的图像融合。

具体来说,对于给定的视觉任务,我们引入标准损失函数 lT 来基于单个融合图像 IF 来训练 NT。同时,我们将图像融合过程视为约束,其表示为等式: (2) 并揭示了基于最优网络参数 θ* F 获得融合图像 IF 的过程。由于复杂的耦合公式,直接求解这种嵌套优化具有挑战性。具体来说,特定任务目标的梯度可以表示为

其中 G(θT(θ* F )) 表示基于图像融合 θ* F 的响应的间接梯度。我们的目标不是为视觉任务提供更多的融合响应,而是通过任务指导来加强图像融合。因此,我们不是使用精确的解决方案直接解决这个特定于任务的目标,而是简化了一个渐进的分阶段过程来聚合融合的任务偏好。

为了研究图像融合和下游视觉任务之间的关系,一种直接的方法是联合学习。如果没有良好初始化的 IF,从头开始的联合学习可能会导致很难收敛。因此,我们首先更多地关注解决单图像融合约束(即方程(2))。具体来说,一个主要障碍是获得有效的架构,这对于特征提取应该是有效的。我们提出隐式架构搜索(IAS)来发现合成 NF 的有效架构。进一步探索,面对视觉任务的不同数据分布,良好初始化的图像融合参数可以实现灵活的适应。因此,我们提出了借口元初始化(PMI)来学习可泛化参数(表示为 θ0 F )以研究与任务无关的融合能力。基于IAS和PMI,我们可以利用梯度下降来获得基础融合图像,如图1(a)底部所示。

然后我们将图像融合的约束放入视觉任务的优化中,共同优化融合和下游任务的网络。复合目标可以写为

 

其中 η 是平衡权重。显然,这个公式揭示了 θF 的梯度是由 lF 的信息丰富度测量和 lT 的任务指导合成的。注意到这种学习策略对两个网络都是互利的。一方面,图像融合与IF的嵌套优化可以指导视觉任务的学习。另一方面,特定视觉与y的后向反馈可以促进任务相关信息进入图像融合,最终实现面向任务的学习,如图1(a)中循环的黄色箭头所示。

隐式架构搜索

如图 1(a)所示,我们利用架构搜索来发现有效的图像融合架构。目前,有两种流行的方法来设计图像融合的架构,即手动设计和通用架构搜索。然而,手工制作的融合架构大多基于现有机制,受限于繁重的劳动力和设计经验。另一方面,主流的可微搜索策略[22]、[23]都是在大规模数据集上引入的,由于考虑到效率的一步近似,无法估计准确的梯度。因此,这些方法很容易生成不稳定的架构,特别是对于图像融合数据不足的情况。因此,我们提出了隐式架构搜索,它可以有效地支持方程(2)的求解过程走向稳定的架构。

整个过程如图1(b)所示。在可微松弛[22]、[24]之后,我们引入αF来表示NF的架构权重。然后我们引入搜索目标lαF来衡量αF的影响。隐式策略的目标是避免θF学习不足和计算量大,更适合无监督融合任务。请注意,为了简单表示,我们省略了下标 F。求解过程中,代入θ,lα的具体梯度Gα一般可写为:

基于低层子问题具有单一最优解的假设,并参考隐函数理论,最优参数θ表征为

这样,我们可以获得比一般搜索策略更精确的梯度估计,避免了一步更新的不足。受高斯-牛顿(GN)方法的启发,我们利用一阶梯度的外积来近似二阶导数。基于最小二乘法,架构梯度的隐式近似可以表示为:

此外,我们讨论了所提出方法的优点。首先,该策略基于充分学习网络参数的要求。最优参数可以提供准确的梯度估计。其次,与一般的可微搜索相比,由于不需要每次迭代更新一次,因此具有架构的搜索稳定性。而且,图像融合任务是一个无监督任务,没有丰富的数据。事实上,IAS 对于这项任务来说效率更高。

然后介绍具体的搜索目标。我们首先在搜索目标中提出一个操作敏感的正则化 Reg,以指示操作的基本属性(例如,计算成本和架构的紧凑性)。例如,Reg可以认为是基于所有操作的延迟的加权总和,用于约束参数量。我们还可以控制紧凑性,用跳过连接的总数来定义 Reg。因此,搜索目标被表述为:lαF = lF + λ(Reg(αF))。其中λ表示平衡融合质量和操作敏感属性的权衡系数。

预设任务元初始化

显然,θF 在连接图像融合和后续视觉任务的信息聚合方面起着至关重要的作用。井初始化 θF 应揭示内在的融合原理并充当快速适应的媒介。另一方面,θF应该合并风格化的域信息,以增强对未见过的融合数据的泛化能力。然而,现有的图像融合方法很少消化固有的融合原理。这些方法使用特定融合任务的模型设计特定的融合规则。更重要的是,融合任务差异很大并且具有不同的强度分布。通过直接在混合融合数据集上进行预训练来获得可推广的 θ0 F 是很困难的,它不能充分存储融合任务的元知识,并且没有一致的表示。

因此,如图1(c)所示,我们提出了预设任务元初始化策略来学习快速适应能力,这可以帮助框架快速适应特定的融合任务来学习面向任务的θ*F,与信息融合相关和下游视觉感知任务。我们将 ω 表示为从不同融合场景中的借口任务中学习的权重。事实上,我们在方程(1)和(2)中引入了一个额外的约束。 其定义如下:

其中 M 表示融合任务。

因此,我们为基于图像融合的视觉优化构建了一个预设任务元初始化约束。这实际上是另一个基于图像融合约束的优化问题,即等式(2),这带来了具有挑战性的计算困难。预设任务学习可以捕捉图像融合的底层特征,从而提高其泛化能力和快速适应能力。

我们提出了一个分层求解过程,我们在图像融合约束的解决方案下考虑该解决方案。具体来说,我们将f定义为特征级信息丰富度度量,旨在加权ω的泛化能力,遵循[14]。预设任务目标方程的求解过程(5)可以分为两个步骤,即用特定的融合场景优化θFi并最小化多样场景中的元目标。对于每个场景,我们可以通过几个梯度步骤获得特定的θFi,可以将其表示为 θFi ← ω − ∇ωlF(NF(IA, IB))。然后我们测量这些特定于任务的权重 θFi 的性能,以了解图像融合任务的常见潜在分布和基本融合原理。计算过程为

这个目标可以体现ω的泛化能力。我们迭代执行两个步骤,直到达到 ω*。然后我们为 θ0 F 指定 ω 的值,并继续求解式(1)的其他约束。 具体细节在 Alg.1中报告。 第 5.3 节进行了相关消融研究,以证明两种策略的有效性。值得指出的是,基于顺利的初始化,与直接训练相比,我们可以利用较少的训练数据和较小的迭代次数来获得显着的结果。

综上所述,我们提供了另外两个重要的支持来赋予 NF 有效的架构构建原则,并建立预设任务元初始化来学习不同数据之间的自适应参数。因此,这些技术有效地支持图像融合约束的优化,即等式(2)。我们将完整的方案总结为 Alg.1。注意到,为了简化表示,我们省略了具体的学习率。

实验结果

可见光和红外光融合

“L”表示延迟约束,正则项reg

图像融合与配准

医学图像融合

目标检测

语义分割

消融实验

搜索策略

元初始化

结论

在本文中,我们开发了一种通用的任务引导图像融合。基于约束策略,我们实现了灵活的学习范式来指导图像融合,整合来自下游视觉任务的信息。提出了隐式架构搜索策略来发现灵活有效的融合网络。我们还引入了借口元初始化策略,以赋予图像融合与多种融合场景的快速适应。各种视觉增强和语义理解任务的综合定性和定量结果证明了其优越性。此外,隐式搜索策略还能够为更多无监督视觉任务构建架构。对于未来的工作,一个有希望的方向是基于这种约束范式建立从数据配准、增强、融合和感知的多模态视觉框架。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值