读论文：SwinFusion: Cross-domain Long-range Learning for General Image Fusion via Swin Transformer

老猪心飞扬

已于 2024-04-17 15:01:35 修改

阅读量2.7k

点赞数 42

分类专栏：读论文文章标签： transformer 深度学习人工智能

于 2024-04-08 23:25:43 首次发布

本文链接：https://blog.csdn.net/m0_49016094/article/details/137473586

版权

读论文专栏收录该内容

8 篇文章

订阅专栏

该论文介绍了一种基于SwinTransformer的通用图像融合框架SwinFusion，它通过跨域远程学习解决传统方法在非相邻像素间信息交换的局限。论文设计了结合CNN和Transformer的网络结构，有效整合局部和全局依赖，以提升图像融合的质量。实验结果显示，SwinFusion在多模态和特定任务图像融合中表现出色，尤其是在结构保持和纹理保存方面。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

@article{Ma2022SwinFusion,
author={Ma, Jiayi and Tang, Linfeng and Fan, Fan and Huang, Jun and Mei, Xiaoguang and Ma, Yong},
journal={IEEE/CAA Journal of Automatica Sinica},
title={SwinFusion: Cross-domain Long-range Learning for General Image Fusion via Swin Transformer},
year={2022},
volume={9},
number={7},
pages={1200-1217}
}

论文所在期刊：IEEE/CAA J. Autom. Sinica
发布时间：2022.7.1
所在级别：
影响因子：

论文下载
 论文代码

论文笔记

关键词

Cross-domain long-range learning, image fusion,Swin transformer
跨域远程学习，图像融合，Swin transformer

提出问题

传统框架通常在空间域或变换域中实现互补信息聚合，但它们都不能在非相邻像素之间进行信息交换，因此传统框架难以感知全局
基于CNN、AE和gan的框架的基本组成部分是卷积层，它们只能在接受场内挖掘交互。然而，这些框架在利用局部信息进行图像融合的同时，不能利用域内或域间的远程依赖关系来进一步改善融合结果。
现有的基于transformer的方法仅探索域内交互，而无法整合跨域上下文
用于图像融合的视觉变形器通常要求输入图像可以被重塑为固定大小(例如256 × 256)，这导致融合图像中的场景失真
现有的融合transformers是针对特定的融合场景而设计的，没有考虑不同融合任务之间的内在联系

核心思想

设计了一种基于跨域远程学习和Swin Transformer的通用图像融合框架

设计了一个联合CNN-Transformer图像融合框架来充分挖掘源图像中的局部和全局依赖关系。基于cnn的浅特征提取单元挖掘源图像中的局部信息。基于transformer的深度特征提取单元探索浅层特征之间的全局交互，生成包含高级语义信息的深层特征
精心设计的注意力引导跨域融合模块有效地集成了深层特征的域内和域间交互。域内融合单元通过自关注机制聚合同一域内的全局上下文，域间融合单元对多源图像之间的远程依赖关系进行建模，通过交换来自不同域的查询、键和值，实现全局特征融合
基于transformer的深度特征重构单元和基于cnn的融合图像重构单元利用全局和局部信息重构具有优越视觉感知的融合图像。
自注意和交叉注意都是通过移位窗口机制(即Swin Transformer)实现的，它允许我们的框架处理任意大小的输入图像

网络结构

在这里插入图片描述

提取浅层特征
提取深层特征：H_DE(·)为包含N个Swin Transformer层的深度特征提取单元
首先设计了一个基于自关注的域内融合单元（intra-domain fusion unit），以有效地整合同一域内的全局交互
- 将给定大小为H ×W ×C的特征F，reshape为HW/M²*M²*C，其中M为窗口大小，HW/M²即为这个F中能划分出的窗口总数
- 接下来，对每个窗口分别执行标准的自我注意，对于一个局部窗口特征X∈R^M2×C，使用三个跨不同窗口共享的可学习权矩阵W^Q∈R^C×C、W^K∈R^C×C和W^V∈R^C×C，将其投影到查询Q、键K和值V中
计算查询与所有键的点积，然后使用softmax运算符将其归一化以产生注意力分数。其中d_k为键的维数，B为可学习的相对位置编码，将自注意扩展为多头自注意(MSA)，使注意机制能够考虑各种注意分布
接下来，部署由两个多层感知器(MLP)层和GELU激活层组成的前馈网络(FFN)来改进MSA产生的特征令牌。层归一化(LN)总是在MSA和FFN之后进行，并将剩余连接应用于两个模块。局部窗口特征X的域内融合单元的整个过程表示为：
- Z是以X为输入的域内融合单元的输出
- 前馈网络(FFN)如下：GELU是高斯误差线性单位
注意力的移位窗口机制：可以看到，在第 l 层中，采用了常规的窗口划分方案，并在每个窗口内计算注意力。在下一层(即第 l + 1层)中，窗口分区被移动，从而产生新的窗口。
在域内融合单元的基础上，设计了基于交叉关注的域间融合单元，进一步整合不同域间的全局交互。域内融合单元和域间融合单元都遵循类似的基线。主要区别在于域间融合单元采用多头交叉注意(multi-head crossattention, MCA)而不是MSA来实现跨域的全局上下文交换,给定来自不同域的两个局部窗口特征X₁和X₂，将域间融合单元的整个过程定义为：
- 对于来自域1的Q1，它通过与域2的K2和V2进行关注加权来融合跨域信息，同时通过残差连接保留域1的信息，反之亦然
- 模型部署了L个注意力引导的跨域融合模块，由级联的域内融合单元和域间融合单元组成，交替集成全局的域间和跨域交互（这里L设置为2）
在注意引导的跨域融合模块之后，我们部署了一个带有空间不变滤波器的卷积层，用于聚合不同域的局部信息，增强我们的SwinFusion的平移等方差，可以表示为：
- 其中F1 AF和F2 AF分别表示ACFM以F1 DF和F2 DF为输入聚合的输出特征。H_Conv(·)表示具有空间不变滤波器的卷积层，Concat(·)表示通道维度上的拼接。FFDF表示融合后的深度特征，是特征重构模块的输入
重建:在充分融合不同领域的互补信息后，我们设计了基于transformer的深度特征重建单元和基于cnn的图像重建单元，将融合后的深度特征映射回图像空间
- 部署包含P个（文中设置P为4）Swin Transformer层的深度特征重构单元H_DR(·)，从全局角度对融合的深度特征进行细化，对融合的浅层特征进行恢复。这个过程可以表示为：
- 部署基于cnn的图像重构单元H_IR(·)，减少信道数，生成融合图像I_f

损失函数

将不同的图像融合问题归纳为结构保持、纹理保持和适当的强度控制，据此，我们设计了SSIM损耗、纹理损耗和强度损耗来约束网络
- SSIM损失：作者任务此处两个原图对融合图像的贡献度是相同的，因此设置w1=w2=0.5
- 纹理损失：作者观察到，通过最大选择策略可以有效地聚合源图像中的纹理细节
- 强度损失：M(·)是一个基于元素的聚合操作，它取什么与特定的融合场景相关联，在可见光和红外图像融合(VIF)、医学图像融合(Med)和多焦点图像融合(MFF)中使用max(·)，对于可见光和近红外图像融合(VIS-NIR)和多曝光图像融合(MEF)，则用mean(·)。
总损失:

数据集

*所有融合任务的训练和测试数据均来自公开可用的数据集MSRS

作者基于公开可用的VIS-NIR场景数据集构建了用于VIS-NIR的训练和测试数据集
医学图像融合的训练和测试数据集建立在公开可用的哈佛医学数据集上
使用MEF数据集对MEF模型进行训练,使用MEF基准数据集作为测试集
MFI-WHU和Lytro数据集用于MFF的训练和测试

训练设置

Batch size设置为16
每个融合任务需要10000个steps，在每一步中，来自训练集的图像被随机裁剪成128 × 128块，然后归一化为[0,1]
使用Adam优化器
学习率初始化为2×10^-4，然后呈指数衰减
总损失中，λ1 = 10、λ2 = 20、λ3 = 20
窗口大小M设置为8
处理RGB输入：RGB输入首先转换为YCbCr色彩空间
- 对于多模态图像融合，由于只有可见光图像和PET图像包含颜色信息，因此融合后的Y通道与可见光图像(或PET图像)的Cb和Cr(色度)通道一起被映射回RGB颜色空间
- 对于数码摄影图像融合，传统的Cb和Cr通道融合方法是：其中C1和C2分别为源图像I1和I2的Cb和Cr通道。Cf为对应信道的融合结果。本文将τ设为128。然后，将融合的Y、Cb、Cr通道通过逆转换转换为RGB色彩空间。从而将多模态图像融合和数字摄影图像融合统一为单通道图像融合问题。
处理序列输入：最初合并了两个序列图像。然后，将中间结果与另一源图像融合，生成最终融合图像。通过这种方式，SwinFusion理论上能够融合任意数量的序列图像
- 多重曝光融合：
- 多重聚焦融合：

实验

评价指标

特征互信息(feature mutual information, FMI)
Qabf
结构相似性(structural similarity, SSIM)
峰值信噪比(peak signal- tonoratio, PSNR)
不懂的可以看看这个：图像融合网络的通用评估指标

Baseline

四种统一的图像融合算法是:IFCNN, PMGI, SDNet,U2Fusion
三种特定任务的VIF融合方法:GTF、DenseFuse、FusionGAN
VIS-NIR的特定任务比较算法:ANVF、DenseFuse、GANMcC
医学图像融合任务中选择的三种特定任务方法：CSMCA、EMFusion、DDcGAN
针对特定任务的MEF替代方案：SPD-MEF，MEFNet，MEF-GAN
MFF的三种比较方法：SFMD、DRPL、MFFGAN
除GTF、ANVF、CSMCA、SPD-MEF、SFMD是采用传统的方案，其他算法都是基于深度学习的方法

实验结果

定量比较:表1显示了SwinFusion和最先进算法之间的定量比较。正如我们所看到的，SwinFusion在几乎所有多模态图像融合任务的指标中都取得了领先地位。但是方案在VIF上的PSNR落后于其他竞争对手，作者认为是合理的，模型通过充分整合源图像中的全局相互作用，更加关注红外图像中的显著目标区域，导致非显著区域的信息丢失
SwinFusion与五种最先进的可见光和红外图像融合方法的定性比较
SwinFusion与五种最先进的可见光和近红外图像融合方法的定性比较：作者的方法由于充分的全局信息聚合、有效的结构维护和纹理保存，在定量评估方面具有优势
SwinFusion与五种最先进的PET和MRI图像融合方法的定性比较：作者的融合模型通过有效的结构维护、全局交互聚合和适当的强度控制，既能保留MRI图像中丰富的细节，又能充分表征PET图像中的功能信息
SwinFusion与五种最先进的CT和MRI图像融合方法的定性比较：SwinFusion在不丢失软组织细节和解剖信息的前提下，保留了更多的结构(纹理)信息
数字摄影图像融合场景的定量比较。红色表示最佳结果，蓝色表示次优结果
多曝光图像融合的定性结果：SwinFsuion可以有效地合并源图像中的互补信息，并通过全局曝光感知保持适当的曝光水平
多焦点图像融合的定性结果：每个方法得到一个差异图，表示近焦图像与融合结果之间的差异，可以发现，该方法实现了自适应焦点区域感知，并通过全局上下文聚合保持适当的强度分布
MSRS数据集上可见光、红外和融合图像的分割性能(miou)：从结果中可以看出，作者的融合方法可以有效地促进分割模型通过充分整合模内和模间的互补信息以及全局背景来感知成像场景
全局信息的可视化。
语义分割的可视化结果
目标检测的视觉结果。从上到下分别是由SwinFusion生成的红外图像、可见光图像和融合图像的检测结果
MSRS数据集上可见光、红外和融合图像的目标检测性能：该检测模型在可见光图像上具有较好的汽车检测性能，而在红外图像上具有较好的行人检测性能，融合图像的行人检测性能虽然不如红外图像，但也有其合理性。红外图像仅采集突出物体的热辐射信息，忽略了周围环境，对人等突出目标对比度更高，便于探测器检测行人
深度估计的多焦点图像融合：作者的方法有效地将源图像聚焦区域的场景信息整合到单个全聚焦图像中。因此，AdaBins能够成功地从融合图像中估计出所有物体的密集深度图
消融实验