@article{ma2022swinfusion,
title={SwinFusion: Cross-domain long-range learning for general image fusion via swin transformer},
author={Ma, Jiayi and Tang, Linfeng and Fan, Fan and Huang, Jun and Mei, Xiaoguang and Ma, Yong},
journal={IEEE/CAA Journal of Automatica Sinica},
volume={9},
number={7},
pages={1200–1217},
year={2022},
publisher={IEEE}
}
论文级别:SCI AI
影响因子:11.8
文章目录
📖论文解读
作者提出了一种基于【跨域远程学习】和【Swin Transformer】的【通用】图像融合框架SwinFusion。
- 注意力引导的跨域模块,用来实现互补信息和全局信息的充分整合
- 基于自注意力机制的域内融合单元,用来提取特有特征
- 基于跨域注意力机制的域间融合单元,用来提取互补特征
- 上述两种注意力机制都是由移位窗口(SwinTransformer)机制实现的,ST允许框架处理任意尺寸的图像
- 提出了一个多场景图像融合问题的统一框架
- 设计了由SSIM、纹理、强度损失构成的损失函数
🔑关键词
Cross-domain long-range learning, image fusion,Swin transformer.
跨域远程学习,图像融合,Swin transformer
💭核心思想
作者将所有的图像融合任务【建模】为:
- 【结构维护】
- 【纹理保留】
- 【适当的强度控制】
并设计了CNN-Transformer通用图像融合框架
- 【CNN】的浅层特征提取单元负责提取【局部信息】
- 【Transformer】的深度特征提取单元负责提取【全局交互信息】
- 通过【注意力引导的跨域融合模块】整合域间和域内信息
- 【域内融合单元】通过【自注意力机制】将全局上下文信息整合到相同域
- 【域间融合单元】通过【跨域注意力机制】对多个源图像的长期依赖建模,然后通过【交换不同域的QKV】实现全局特征融合
最终利用基于Transformer的【深度特征重建单元】和基于CNN的【融合图像重建单元】利用【全局和局部信息】重构融合图像。
🪢网络结构
作者提出的网络结构如下图所示。3个部分为:特征提取、注意力引导的跨域融合以及重构
I
1
∈
R
H
×
W
×
C
i
n
I_1∈\mathbb{R}^{H×W×C_{in}}
I1∈RH×W×Cin和
I
2
∈
R
H
×
W
×
C
i
n
I_2∈\mathbb{R}^{H×W×C_{in}}
I2∈RH×W×Cin分别代表来自不同域的对齐源图像对,
I
f
∈
R
H
×
W
×
C
o
u
t
I_f∈\mathbb{R}^{H×W×C_{out}}
If∈RH×W×Cout是融合图像。
H
H
H、
W
W
W、
C
i
n
C_{in}
Cin和
C
o
u
t
C_{out}
Cout分别是源图像的高、宽、通道数和融合图像的通道数。
🪢特征提取
首先,通过多层卷积
H
S
E
(
⋅
)
H_{SE}(·)
HSE(⋅)提取
I
1
I_1
I1和
I
2
I_2
I2的浅层特征
F
S
F
1
F^1_{SF}
FSF1和
F
S
F
2
F^2_{SF}
FSF2:
然后,通过多层卷积
H
D
E
(
⋅
)
H_{DE}(·)
HDE(⋅)提取浅层特征
F
S
F
1
F^1_{SF}
FSF1和
F
S
F
2
F^2_{SF}
FSF2的深层特征
F
D
F
1
F^1_{DF}
FDF1和
F
D
F
2
F^2_{DF}
FDF2:
🪢注意力引导的跨域融合ACMF
设计了注意力引导跨域融合模块(attention-guided cross-domain fusion module ,ACFM)用来进一步挖掘域内和域间的全局上下文信息。
首先,设计了【基于自注意力机制的域内融合单元】来整合相同域内的全局交互。基于【转移窗机制】的注意力是融合单元的基础。给定大小为
W
×
H
×
C
W×H×C
W×H×C的特征
F
F
F,转移窗机制首先将输入分割为不重叠的
M
×
M
M×M
M×M个局部窗口,即将输入F reshape为
H
W
2
×
M
2
×
C
\frac{HW}{2}×M^2×C
2HW×M2×C,
H
W
2
\frac{HW}{2}
2HW是窗口的总数。
接下来,对每个局部窗口执行标准的自注意力机制。对局部窗口特征
X
∈
R
M
2
×
C
X∈\mathbb{R}^{M^2×C}
X∈RM2×C,三个可学习的权重矩阵
W
Q
∈
R
C
×
C
W^Q∈\mathbb{R}^{C×C}
WQ∈RC×C、
W
K
∈
R
C
×
C
W^K∈\mathbb{R}^{C×C}
WK∈RC×C和
W
V
∈
R
C
×
C
W^V∈\mathbb{R}^{C×C}
WV∈RC×C在不同窗口中共享,用来投影至
Q
、
K
、
V
Q、K、V
Q、K、V
此处可以参考Transformer和ViT的相关论文和讲解
参考链接
[史上最小白之Transformer详解]
[Transformer模型详解(图解最完整版)]
[ViT(Vision Transformer)解析]
[多头自注意力机制详解]
然后,Attention函数计算Q和所有K的点积后使用softmax归一化,从而获得注意力权重。注意力机制为:
d
k
d_k
dk是K的维度。
B
B
B是可学习的相对位置编码。
局部窗口特征
X
X
X的域内融合单元的整个过程为:
MSA是多头自注意力,LN是层归一化(layer normalization, LN),FFN是前馈网络。
Z
Z
Z是域内融合单元的输出。
下图为连续两个Swin Transformer的框架,交替使用规则窗口划分和移位窗口划分实现跨窗口连接。
图4为ST和域内融合单元中用于计算注意力权值的移位窗口机制。
移位窗口意味着在划分之前将特征偏移了
(
M
2
,
M
2
)
({\frac{M}{2}},{\frac{M}{2}})
(2M,2M)像素。上图在层
l
l
l中使用规则窗口划分,即在每个窗口内计算注意力,在
l
+
1
l+1
l+1层使用了移位窗口划分,导致窗口被移位,因此提供了窗口之间的连接。
(小编的理解是,四个团队,重塑为九个团队,你中有我我中有你,因此提供了“团队之间的连接”)
上面的是【域内】融合单元,接下来介绍【域间】融合融合单元
域间融合单元进一步整合了不同域间的全局交互。和域内的主要区别在于:
域间融合单元使用【多头交叉注意力机制】而不是【多头自注意力机制】来实现全局上下文信息交换。
给定两个来自不同域的局部窗口特征
X
1
X_1
X1和
X
2
X_2
X2,域间融合单元的整个过程为:
Q
1
Q_1
Q1来自域1,与来自域2的
K
2
K_2
K2和
V
2
V_2
V2进行注意力加权,从而合并跨域信息,同时通过残差连接保持域1的信息(即+
Q
1
Q_1
Q1)。【此处第二行公式感觉写错了,感觉等式左边应该是
{
Q
2
,
K
1
,
V
1
}
\{Q_2,K_1, V_1\}
{Q2,K1,V1}】
之后,作者使用了一个空间不变卷积核来整合不同域的局部信息,增加SwinFusion的平移等变性(translational equivariance):
F
A
F
1
F^1_{AF}
FAF1和
F
A
F
2
F^2_{AF}
FAF2分别代表以
F
D
F
1
F^1_{DF}
FDF1和
F
D
F
2
F^2_{DF}
FDF2作为输入的,经过ACFM整合的输出特征。
H
C
o
n
v
d
(
⋅
)
H_{Convd}(·)
HConvd(⋅)代表空间不变卷积核,
C
o
n
c
a
t
(
⋅
)
Concat(·)
Concat(⋅)为通道维度拼接。
F
F
D
F
F_{FDF}
FFDF是特征重构模块的输入。
参考链接
[CNN中等变性和不变性]
🪢特征重构
作者设计了设计了基于transformer的深度特征重建单元和基于cnn的图像重建单元,将融合后的深度特征映射回图像空间。
首先,包含4层Swin Transformer的深度特征重构单元
H
D
R
(
⋅
)
H_{DR}(·)
HDR(⋅)被用来从全局的角度融合深度特征并重构融合后的浅层特征:
然后,利用基于CNN的图像重构单元
H
I
R
(
⋅
)
H_{IR}(·)
HIR(⋅)减少通道数并生成融合图像
I
f
I_f
If:
📉损失函数
损失函数=结构相似性损失+纹理损失+强度损失
其中,
本处认为两张源图像对融合结果贡献相同,故两个权重参数均为0.5。
纹理损失如下:
作者认为最大选择策略可以有效地聚合源图像中的纹理细节。
强度损失如下:
上式中,
M
(
⋅
)
M(·)
M(⋅)为面向元素的聚合操作。受【IFCNN】的启发,本文使用了平均操作。
参考链接
📑[IFCNN: A general image fusion framework based on convolutional neural network]
🔢数据集
图像融合数据集链接
[图像融合常用数据集整理]
🎢训练设置
🔬实验
📏评价指标
- FMI
- QABF
- SSIM
- PSNR
参考资料
✨✨✨强烈推荐必看博客 [图像融合定量指标分析]
🥅Baseline
- 统一图像融合算法
- IFCNN
- PMGI
- SDNet
- U2Fusion
- VIF
- GTF
- DenseFuse
- FusionGAN
- VIS-NIR
- ANVF
- DenseFuse
- GANMcC
- MED
- CSMCA
- EMFusion
- DDcGAN
- MEF
- SPD-MEF
- MEFNet
- MEF-GAN
- MFF
- SFMD
- DRPL
- MFFGANXXXXXX
上面粗体斜体为传统方法,其余方法均为基于深度学习的方法。
🔬实验结果
更多实验结果及分析可以查看原文:
📖[论文下载地址]
💽[代码下载地址]
🚀传送门
📑图像融合相关论文阅读笔记
📑[(MFEIF)Learning a Deep Multi-Scale Feature Ensemble and an Edge-Attention Guidance for Image Fusion]
📑[DenseFuse: A fusion approach to infrared and visible images]
📑[DeepFuse: A Deep Unsupervised Approach for Exposure Fusion with Extreme Exposure Image Pair]
📑[GANMcC: A Generative Adversarial Network With Multiclassification Constraints for IVIF]
📑[DIDFuse: Deep Image Decomposition for Infrared and Visible Image Fusion]
📑[IFCNN: A general image fusion framework based on convolutional neural network]
📑[(PMGI) Rethinking the image fusion: A fast unified image fusion network based on proportional maintenance of gradient and intensity]
📑[SDNet: A Versatile Squeeze-and-Decomposition Network for Real-Time Image Fusion]
📑[DDcGAN: A Dual-Discriminator Conditional Generative Adversarial Network for Multi-Resolution Image Fusion]
📑[FusionGAN: A generative adversarial network for infrared and visible image fusion]
📑[PIAFusion: A progressive infrared and visible image fusion network based on illumination aw]
📑[CDDFuse: Correlation-Driven Dual-Branch Feature Decomposition for Multi-Modality Image Fusion]
📑[U2Fusion: A Unified Unsupervised Image Fusion Network]
📑综述[Visible and Infrared Image Fusion Using Deep Learning]
📚图像融合论文baseline总结
📑其他论文
📑[3D目标检测综述:Multi-Modal 3D Object Detection in Autonomous Driving:A Survey]
🎈其他总结
🎈[CVPR2023、ICCV2023论文题目汇总及词频统计]
✨精品文章总结
✨[图像融合论文及代码整理最全大合集]
✨[图像融合常用数据集整理]
如有疑问可联系:420269520@qq.com;
码字不易,【关注,收藏,点赞】一键三连是我持续更新的动力,祝各位早发paper,顺利毕业~