【论文阅读】A Task-guided, Implicitly-searched and Metainitialized Deep Model for Image Fusion

A Task-guided, Implicitly-searched and Metainitialized Deep Model for Image Fusion(2024TPAMI)

现有方法存在的问题

(i)大多数都专注于提升融合图像的视觉效果,而不是考虑下游视觉任务,这给场景理解应用带来了障碍。

(ii)当前的融合方法设计了增加深度或宽度的手工架构,这依赖于冗长的专用调整;因此,它们不可避免地导致耗时的结构工程。

(iii)这些方法是通过特定的训练数据来学习的,无法获得各种融合场景的泛化能力。

本文贡献

1.为了将任务相关的指导纳入图像融合的学习中,我们建立了一种约束策略来对下游任务的图像融合进行建模,以打破大多数融合方法忽略视觉任务信息的瓶颈。

2.在架构构建方面,我们提出了一种隐式搜索策略,可以自动高效地发现融合模型,避免了主流设计方法的繁琐调整和庞大的结构工程。

3.在参数训练方面,我们开发了借口元初始化策略来学习不同融合数据之间的内在特征提取,从而使融合模型具有只需少量数据即可实现对各种场景的快速适配的能力。

4.我们相继将我们的融合方法应用于各种下游视觉感知任务。对增强和语义理解任务的客观和主观比较以及充分的评估证明了我们所提出机制的优越性和有效性。

本文方法

具有任务指导的图像融合

从嵌套优化的角度来看,图像融合的特定任务目标可以分为两部分:图像融合网络 NF 和视觉任务网络 NT。视觉任务的目标是通过融合图像 IF 生成任务相关的输出 y,实现视觉感知。学习过程可以表示为 y = NT(IF; θT)。这种框架能将单模态视觉任务的通用解决方案转移到我们的框架中,从而实现高效的 NT 组合。通过这种方式,我们将视觉任务与图像融合过程结合起来,图像融合的优化受到信息丰富度 lF 和特定任务维护比例 lT 损失的限制。以任务表现的有效反馈作为融合标准,可以实现面向任务的图像融合。

具体来说,对于给定的视觉任务,我们引入标准损失函数 lT 来基于单个融合图像 IF 来训练 NT。同时,我们将图像融合过程视为约束,其表示为等式: (2) 并揭示了基于最优网络参数 θ* F 获得融合图像 IF 的过程。由于复杂的耦合公式,直接求解这种嵌套优化具有挑战性。具体来说,特定任务目标的梯度可以表示为

其中 G(θT(θ* F )) 表示基于图像融合 θ* F 的响应的间接梯度。我们的目标不是为视觉任务提供更多的融合响应࿰

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值