DRMF: Degradation-Robust Multi-Modal Image Fusion via Composable Diffusion Prior
摘要
现有的多模态图像融合算法通常是针对高质量图像而设计的,无法解决退化问题(例如,低光、低分辨率和噪声),这限制了图像融合在实践中释放潜力。在这项工作中,我们提出了退化-鲁棒多模态图像融合(DRMF),利用扩散模型强大的生成特性抵消图像融合过程中的各种退化。我们的关键见解是,由不同模态和退化驱动的生成扩散模型在去噪过程中本质上是互补的。具体来说,我们针对不同模态预先训练多个退化鲁棒条件扩散模型来处理退化。随后,设计了扩散先验组合模块来整合预先训练的生成先验单模态模型,实现有效的多模态图像融合。 大量实验表明,即使在复杂的降解情况下,DRMF 在红外可见光和医学图像融合方面也表现出色。
网络结构
基于扩散模型:
StageI 展示了 DRCDM 的流程。StageII 表示通过预训练的退化鲁棒扩散先验直接生成融合结果的过程。给定补全的退化图像{𝑥𝑖 𝑐}和任意高斯噪声𝑥 𝑓 𝑇 ,DRMF 首先使用噪声估计网络{𝜖𝑖 𝜃 }预测退化稳健的生成先验(即噪声){𝑛𝑖 𝑡}。然后,将各种模态提供的生成先验与 DPCM 进行聚合,以推断后续的融合样本𝑥 𝑓 𝑡 直到生成最终的高质量融合图像𝑥𝑓。
损失函数
每一步逆扩散的强度损失+梯度损失:
引入正则化项来约束组合权重𝛾𝑖𝑡的平滑度,其定义为:
特别是,IVIF 任务预计会保留红外图像中的显着物体。为了实现这一目标,我们设计了一个额外的掩模引导损失,利用显着目标掩模𝑚来指导𝛾𝑖𝑟𝑡学习:
{𝛾𝑖 𝑡}𝑇 𝑡=1 是满足 𝑖𝛾𝑖 𝑡 =1 的先验的每个生成扩散的序列权重。这样,DPCM的目标是估计每种模态的序列权重。可学习的权重需要考虑几个因素。它们1)应该测量不同模态的互补属性,2)预计从高质量图像中学习,3)由时间步𝑡调制,4)由上一步的权重引导。使用 U-Net 生成权重的过程定义为:
当前融合样本 𝑥 𝑓 𝑡 、𝑖 模态的预测高质量样本 ˆ 𝑥𝑖 0𝑡 以及上一步中的权重 𝛾𝑖 𝑡+1 被连接并馈入 U-Net。对 diff 的权重进行归一化多种模态,我们对所有权重执行softmax{ˆ 𝛾𝑖 𝑡}以获得最终组合权重{𝛾𝑖 𝑡},通过𝛾𝑖 𝑡 = exp(ˆ 𝛾𝑖 𝑡) 𝑗exp(ˆ 𝛾𝑗 𝑡 )具体来说,在涉及两种互补模态的融合任务中,估计一个权重𝛾𝑖𝑡,而另一个模态的权重可以直接导出为1−𝛾𝑖𝑡。
结果
论文:DRMF: Degradation-Robust Multi-Modal Image Fusion via Composable Diffusion Prior