读论文：IMAGE FUSION TRANSFORMER

老猪心飞扬

于 2024-04-18 14:09:50 发布

阅读量808

点赞数 8

分类专栏：读论文文章标签： transformer 深度学习人工智能

本文链接：https://blog.csdn.net/m0_49016094/article/details/137870275

版权

读论文专栏收录该内容

7 篇文章 0 订阅

订阅专栏

V. Vs, J. M. Jose Valanarasu, P. Oza and V. M. Patel, “Image Fusion Transformer,” 2022 IEEE International Conference on Image Processing (ICIP), Bordeaux, France, 2022, pp. 3566-3570, doi: 10.1109/ICIP46576.2022.9897280. keywords: {Training;Image sensors;Neural networks;Benchmark testing;Sensor fusion;Transformers;Feature extraction;Image fusion;Transformer;CNN;Long-range dependencies;Spatio-Transformer},

论文所在期刊：IEEE International Conference on Image Processing (ICIP)
发布时间：16-19 October 2022
所在级别：
影响因子：

论文下载
 论文代码

论文笔记

关键词

Image fusion, Transformer, CNN, Long-range dependencies, Spatio-Transformer
图像融合，Transformer，卷积神经网络，长范围相关，空间-Transformer

提出问题

基于CNN的方法通过融合局部特征来执行图像融合。然而，它们不考虑图像中存在的长范围依赖性

核心思想

一种基于transformer的多尺度融合策略，兼顾本地和远程信息（或全局上下文）。所提出的方法遵循两阶段的训练方法。在第一阶段，我们训练一个自动编码器来提取多尺度的深度特征。在第二阶段，多尺度特征融合使用的空间变换器（ST）融合策略。ST融合块由CNN和Transformer分支组成，分别捕获本地和远程特征。

网络结构

整体框架
- IFT由三个部分组成：编码器网络，SpatioTransformer（ST）融合网络和嵌套解码器网络
- 编码器网络由四个编码器块组成，其中每个编码器块包含一个内核大小为3 × 3的卷积层，然后是ReLU和最大池化操作，从编码器网络的每个卷积块中提取多尺度的深度特征
- ST融合网络由空间分支和Transformer分支组成。空间分支由conv层和瓶颈层组成，用于捕获局部特征。Transformer分支由一个基于轴向注意力的Transformer块组成，用于捕获远程依赖关系（或全局上下文）,ST融合网络融合从两个源图像中提取到的多尺度特征
- 最后通过以融合特征作为输入来训练嵌套解码器网络来获得融合图像。解码器网络基于RFN-Nest架构
ST Fusion：由两个分支组成：空间和Transformer分支。

自我注意与轴向注意

自注意是一种注意机制，它将单个序列的不同标记联系起来，以便计算相同序列的表示。设x ∈ R^Cin×H×W和y ∈ R^Cout×H×W是输入和输出特征，其中C_in和C_out分别是输入和输出通道的数量，H和W分别对应于高度和宽度。输出y计算如下：
- 其中q_ij、k_ij和v_ij是在任意位置i ∈ {1，…，H}且j ∈ {1，…，W}和分别计算为q = W_Qx、k = W_Kx和v = W_Vx。
- 可以推断自我注意力计算整个特征图的长距离亲和力，不像CNN。然而，这种自注意机制由于其二次复杂性而在计算上是昂贵的。
为了使计算更有效，采用轴向注意力，沿着高度轴的自注意沿着可以被计算为：
- 首先在特征图高度轴上执行自我注意，然后在宽度轴上执行自我注意，从而降低计算复杂度
- Wang提出了一种可学习的位置嵌入，用于轴向注意查询，键和值，以使亲和度对位置信息敏感。这些位置嵌入是在训练期间联合学习的参数。
- 其中r^q、r^k、r^v ∈ R^H×H是高度轴的位置嵌入。

损失函数

总损失
- L_det为结构相似性损失
- L_feat为特征相似性损失
M是提取深度特征的尺度数
f、I1、I2分别表示融合图像、输入源1图像和输入源2图像。
w1、wI 1、wI 2是用于平衡损耗幅度的折衷参数。
Φm f是融合特征图，而ΦI1和ΦI2分别对应于输入源1和输入源2图像的编码特征图。
这种损失约束融合的深度特征以保留显著结构，从而增强融合的特征空间以学习更多显著特征并保留精细细节。

数据集

在KAIST数据集中的80000对可见光和红外图像上训练模型
对TNO人为因素数据集中的21对可见光和红外图像进行了测试

训练设置

对于可见光和红外融合，将图像放大到256 × 256，并将超参数wI 1，wI 2，w1，α设置为6，3，100，700。对于所有实验，我们将学习率、epoch和batch size分别设置为10⁻⁴、4和2
对于MRI和PET图像的实验，网络在9981个裁剪的补丁上进行训练，这些补丁具有从哈佛MRI和PET数据集获得的图像对。在从哈佛MRI和PET图像融合数据集中采样的20对MRI和PET图像上评估训练模型。在训练过程中，我们将图像调整为84 × 84，并将PET图像转换为IHS比例，以将I通道与MRI图像融合。