图像融合论文阅读笔记：SwinFusion: Cross-domain Long-range Learning for General Image Fusion via Swin Transforme

最新推荐文章于 2024-08-15 10:52:55 发布

图像强

最新推荐文章于 2024-08-15 10:52:55 发布

阅读量2k

点赞数 21

分类专栏：图像融合文章标签：论文阅读笔记图像处理深度学习论文笔记人工智能

本文链接：https://blog.csdn.net/jiexiang5396/article/details/135149110

版权

图像融合专栏收录该内容

37 篇文章 49 订阅

订阅专栏

@article{ma2022swinfusion,
title={SwinFusion: Cross-domain long-range learning for general image fusion via swin transformer},
author={Ma, Jiayi and Tang, Linfeng and Fan, Fan and Huang, Jun and Mei, Xiaoguang and Ma, Yong},
journal={IEEE/CAA Journal of Automatica Sinica},
volume={9},
number={7},
pages={1200–1217},
year={2022},
publisher={IEEE}
}

论文级别：SCI AI
影响因子：11.8

📖[论文下载地址]
💽[代码下载地址]

📖论文解读

作者提出了一种基于【跨域远程学习】和【Swin Transformer】的【通用】图像融合框架SwinFusion。

注意力引导的跨域模块，用来实现互补信息和全局信息的充分整合
- 基于自注意力机制的域内融合单元，用来提取特有特征
- 基于跨域注意力机制的域间融合单元，用来提取互补特征
- 上述两种注意力机制都是由移位窗口（SwinTransformer）机制实现的，ST允许框架处理任意尺寸的图像
提出了一个多场景图像融合问题的统一框架
设计了由SSIM、纹理、强度损失构成的损失函数

🔑关键词

Cross-domain long-range learning, image fusion,Swin transformer.
跨域远程学习，图像融合，Swin transformer

💭核心思想

作者将所有的图像融合任务【建模】为：

【结构维护】
【纹理保留】
【适当的强度控制】

并设计了CNN-Transformer通用图像融合框架

【CNN】的浅层特征提取单元负责提取【局部信息】
【Transformer】的深度特征提取单元负责提取【全局交互信息】
通过【注意力引导的跨域融合模块】整合域间和域内信息
- 【域内融合单元】通过【自注意力机制】将全局上下文信息整合到相同域
- 【域间融合单元】通过【跨域注意力机制】对多个源图像的长期依赖建模，然后通过【交换不同域的QKV】实现全局特征融合

最终利用基于Transformer的【深度特征重建单元】和基于CNN的【融合图像重建单元】利用【全局和局部信息】重构融合图像。

参考链接
[什么是图像融合？（一看就通，通俗易懂）]

🪢网络结构

作者提出的网络结构如下图所示。3个部分为：特征提取、注意力引导的跨域融合以及重构
在这里插入图片描述
$I_1∈\mathbb{R}^{H×W×C_{in}}$ 和 $I_2∈\mathbb{R}^{H×W×C_{in}}$ 分别代表来自不同域的对齐源图像对， $I_f∈\mathbb{R}^{H×W×C_{out}}$ 是融合图像。 $H$ 、 $W$ 、 $C_{in}$ 和 $C_{out}$ 分别是源图像的高、宽、通道数和融合图像的通道数。

🪢特征提取

首先，通过多层卷积 $H_{SE}(·)$ 提取 $I_1$ 和 $I_2$ 的浅层特征 $F^1_{SF}$ 和 $F^2_{SF}$ ：
在这里插入图片描述
然后，通过多层卷积 $H_{DE}(·)$ 提取浅层特征 $F^1_{SF}$ 和 $F^2_{SF}$ 的深层特征 $F^1_{DF}$ 和 $F^2_{DF}$ ：

🪢注意力引导的跨域融合ACMF

设计了注意力引导跨域融合模块（attention-guided cross-domain fusion module ，ACFM）用来进一步挖掘域内和域间的全局上下文信息。
首先，设计了【基于自注意力机制的域内融合单元】来整合相同域内的全局交互。基于【转移窗机制】的注意力是融合单元的基础。给定大小为 $W \times H \times C$ 的特征 $F$ ，转移窗机制首先将输入分割为不重叠的 $M \times M$ 个局部窗口，即将输入F reshape为 $\frac{HW}{2}×M^2×C$ ， $\frac{HW}{2}$ 是窗口的总数。
接下来，对每个局部窗口执行标准的自注意力机制。对局部窗口特征 $X∈\mathbb{R}^{M^2×C}$ ，三个可学习的权重矩阵 $W^Q∈\mathbb{R}^{C×C}$ 、 $W^K∈\mathbb{R}^{C×C}$ 和 $W^V∈\mathbb{R}^{C×C}$ 在不同窗口中共享，用来投影至 $Q 、 K 、 V$
在这里插入图片描述

此处可以参考Transformer和ViT的相关论文和讲解
参考链接
[史上最小白之Transformer详解]
[Transformer模型详解（图解最完整版）]
[ViT（Vision Transformer）解析]
[多头自注意力机制详解]
然后，Attention函数计算Q和所有K的点积后使用softmax归一化，从而获得注意力权重。注意力机制为：

在这里插入图片描述
$d_k$ 是K的维度。 $B$ 是可学习的相对位置编码。
局部窗口特征 $X$ 的域内融合单元的整个过程为：

MSA是多头自注意力，LN是层归一化（layer normalization， LN），FFN是前馈网络。 $Z$ 是域内融合单元的输出。
在这里插入图片描述
下图为连续两个Swin Transformer的框架，交替使用规则窗口划分和移位窗口划分实现跨窗口连接。

图4为ST和域内融合单元中用于计算注意力权值的移位窗口机制。

移位窗口意味着在划分之前将特征偏移了 $({\frac{M}{2}},{\frac{M}{2}})$ 像素。上图在层 $l$ 中使用规则窗口划分，即在每个窗口内计算注意力，在 $l + 1$ 层使用了移位窗口划分，导致窗口被移位，因此提供了窗口之间的连接。
（小编的理解是，四个团队，重塑为九个团队，你中有我我中有你，因此提供了“团队之间的连接”）

上面的是【域内】融合单元，接下来介绍【域间】融合融合单元
域间融合单元进一步整合了不同域间的全局交互。和域内的主要区别在于：
域间融合单元使用【多头交叉注意力机制】而不是【多头自注意力机制】来实现全局上下文信息交换。
给定两个来自不同域的局部窗口特征 $X_1$ 和 $X_2$ ，域间融合单元的整个过程为：
在这里插入图片描述
$Q_1$ 来自域1，与来自域2的 $K_2$ 和 $V_2$ 进行注意力加权，从而合并跨域信息，同时通过残差连接保持域1的信息（即+ $Q_1$ ）。【此处第二行公式感觉写错了，感觉等式左边应该是 ${Q_2,K_1, V_1\}$ 】
之后，作者使用了一个空间不变卷积核来整合不同域的局部信息，增加SwinFusion的平移等变性（translational equivariance）：
在这里插入图片描述
$F^1_{AF}$ 和 $F^2_{AF}$ 分别代表以 $F^1_{DF}$ 和 $F^2_{DF}$ 作为输入的，经过ACFM整合的输出特征。 $H_{Convd}(·)$ 代表空间不变卷积核， $C o n c a t (\cdot)$ 为通道维度拼接。 $F_{FDF}$ 是特征重构模块的输入。

参考链接
[CNN中等变性和不变性]

🪢特征重构

作者设计了设计了基于transformer的深度特征重建单元和基于cnn的图像重建单元，将融合后的深度特征映射回图像空间。
首先，包含4层Swin Transformer的深度特征重构单元 $H_{DR}(·)$ 被用来从全局的角度融合深度特征并重构融合后的浅层特征：
在这里插入图片描述
然后，利用基于CNN的图像重构单元 $H_{IR}(·)$ 减少通道数并生成融合图像 $I_f$ ：

📉损失函数

损失函数=结构相似性损失+纹理损失+强度损失
在这里插入图片描述
其中，

本处认为两张源图像对融合结果贡献相同，故两个权重参数均为0.5。
纹理损失如下：

作者认为最大选择策略可以有效地聚合源图像中的纹理细节。
强度损失如下：

上式中， $M (\cdot)$ 为面向元素的聚合操作。受【IFCNN】的启发，本文使用了平均操作。

参考链接
📑[IFCNN: A general image fusion framework based on convolutional neural network]

🔢数据集

图像融合数据集链接
[图像融合常用数据集整理]

🎢训练设置

🔬实验

📏评价指标

FMI
QABF
SSIM
PSNR

参考资料
✨✨✨强烈推荐必看博客 [图像融合定量指标分析]

🥅Baseline

统一图像融合算法
- IFCNN
- PMGI
- SDNet
- U2Fusion
VIF
- GTF
- DenseFuse
- FusionGAN
VIS-NIR
- ANVF
- DenseFuse
- GANMcC
MED
- CSMCA
- EMFusion
- DDcGAN
MEF
- SPD-MEF
- MEFNet
- MEF-GAN
MFF
- SFMD
- DRPL
- MFFGANXXXXXX
  上面粗体斜体为传统方法，其余方法均为基于深度学习的方法。

参考资料
[图像融合论文baseline及其网络模型]

🔬实验结果

在这里插入图片描述

更多实验结果及分析可以查看原文：
📖[论文下载地址]
💽[代码下载地址]

🚀传送门

如有疑问可联系：420269520@qq.com;
码字不易，【关注，收藏，点赞】一键三连是我持续更新的动力，祝各位早发paper，顺利毕业~

图像强

关注

21
点赞
踩
34

收藏

觉得还不错? 一键收藏
打赏
2
评论
图像融合论文阅读笔记：SwinFusion: Cross-domain Long-range Learning for General Image Fusion via Swin Transforme

作者提出了一种基于【跨域远程学习】和【Swin Transformer】的【通用】图像融合框架SwinFusion。- 注意力引导的跨域模块，用来实现互补信息和全局信息的充分整合 - 基于自注意力机制的域内融合单元，用来提取特有特征 - 基于跨域注意力机制的域间融合单元，用来提取互补特征 - 引入了移位窗口机制用来使输入图像尺寸任意- 提出了一个多场景图像融合问题的统一框架- 设计了由SSIM、纹理、强度损失构成的损失函数
复制链接

扫一扫