图像融合论文阅读:SwinFuse: A Residual Swin Transformer Fusion Network for Infrared and Visible Images

最新推荐文章于 2024-12-25 17:13:13 发布

图像强

最新推荐文章于 2024-12-25 17:13:13 发布

阅读量3.3k

点赞数 28

分类专栏：图像融合文章标签：论文阅读深度学习图像融合图像处理论文笔记人工智能

本文链接：https://blog.csdn.net/jiexiang5396/article/details/135184299

版权

图像融合专栏收录该内容

40 篇文章

订阅专栏

@article{wang2022swinfuse,
title={SwinFuse: A residual swin transformer fusion network for infrared and visible images},
author={Wang, Zhishe and Chen, Yanlin and Shao, Wenyu and Li, Hui and Zhang, Lei},
journal={IEEE Transactions on Instrumentation and Measurement},
volume={71},
pages={1–12},
year={2022},
publisher={IEEE}
}

论文级别：SCI A2/Q1
影响因子：5.6

📖[论文下载地址]
💽[代码下载地址]

📖论文解读

卷积运算是图像与卷积核之间内容无关的交互，可能会丢失上下文信息
因此作者提出了SwinFuse（Residual Swin Transformer Fusion Network），该模型包括三个部分：全局特征提取，融合层和特征重构。

使用纯Transformer构建了一个完全注意力编码骨干网络来建模远程依赖
设计了基于序列矩阵L1范数的特征融合策略

🔑关键词

image fusion, Swin Transformer, self-attention mechanism, feature normalization, deep learning
图像融合，Swin Transformer，自注意力机制，特征归一化，深度学习

💭核心思想

使用Swin Transformer提取全局特征，并设计了基于行向量和列向量维度的融合策略

参考链接
[什么是图像融合？（一看就通，通俗易懂）]

🪢网络结构

作者提出的网络结构如下所示。SwinFuse主要由三部分组成：全局特征提取、融合层和特征重构。
在这里插入图片描述

🪢overview

给定输入 ${I^l} \in {R^{H \times W \times {C_{in}}}}$ ，HWC即高宽通道， $l = v i s$ 和 $l = i r$ 分别代表可见光图像和红外图像。
首先，使用1×1卷积核的卷积层进行位置编码，并将输入通道 $C_{in}$ 转换为 $C$ 。初始特征 ${\Phi ^l}$ 为：
在这里插入图片描述
${\Phi ^l} = {H_{pos}}({I^l})$ 中， $H_{pos}$ 代表位置编码，输出通道数C被设置为96.
然后，将初始特征 ${\Phi ^l}$ 转化为序列向量 $\Phi _{SV}^l \in {R^{MN{\rm{ \times C}}}}$ ，并使用残差Swin Transformer块（residual Swin Transformer blocks，RSTBs）提取全局特征 $\Phi _{GF}^l \in {R^{MN{\rm{ \times C}}}}$ ：
在这里插入图片描述
$H_{RSTB_m}$ 代表第m个RSTB。
接下来，使用基于L1范式的融合层，从行、列向量维度获得融合全局特征 $\Phi _{F}^l \in {R^{MN{\rm{ \times C}}}}$ ：

$H_{Norm}$ 代表融合操作。
最后，将融合全局特征的维度从 $R^{MN×C}$ 转换为 $R^{M×N×C}$ ，并使用卷积层重构融合图像 $I_F$ ：
在这里插入图片描述
$H_{Conv}$ 代表特征重构，该层使用了1×1卷积核，padding为0，还有一个tanh激活函数。

🪢RSTB

给定一个输入序列向量 ${\Phi ^l_{m,0}}$ ，使用n个Swin Transformer提取中间全局特征 ${\Phi ^l_{m,n-}}$ ，RSTB最终的输出为：
在这里插入图片描述
$H_{STL_{m,n}}$ 代表第n个Swin Transformer层。

在STL中，首先使用N×N的滑动窗口，将输入划分为不重叠的 $\frac{HW}{N^2}$ 局部窗口并计算其局部注意力。
对于局部窗口 $\Phi_z$ ，QKV计算如下：

$W_Q、W_K、W_V$ 均为可学习参数，d使(Q, K)的维度。序列矩阵自注意力机制计算如下：
在这里插入图片描述
p是位置编码的可学习参数。
随后，Swin Transformer再次计算移动窗口的标准多头注意力（multi-head self-attention， MSA）。STL由W-MSA和SW-MSA构成，LayerNorm在每个MSA和MLP前面，并且使用了残差连接。

🪢融合策略

作者设计了一种基于L1范数的红外-可见光图像序列矩阵融合策略，从行和列向量维度测量活动水平。如下图所示。
在这里插入图片描述
对于两种源图像各自的全局特征 $\Phi _{GF}^{ir}\left( {i,j} \right)$ 和 $\Phi _{GF}^{vis}\left( {i,j} \right)$ ，首先使用L1范数测量其行向量权重，然后使用softmax获得活动水平 $\varphi _{row}^{ir}\left( i \right)$ 和 $\varphi _{row}^{vis}\left( i \right)$ ：
在这里插入图片描述

然后直接将活动水平与对应的全局特征相乘，从行向量维度得到融合全局特征 $\Phi _{row}^{F}\left( i,j \right)$ ：

同理，计算列向量：

最后，使用逐元素相加得到最终的融合全局特征：

注意，融合层只在测试时被保留，在训练阶段被移除。