读论文:SwinFusion: Cross-domain Long-range Learning for General Image Fusion via Swin Transformer

该论文介绍了一种基于SwinTransformer的通用图像融合框架SwinFusion,它通过跨域远程学习解决传统方法在非相邻像素间信息交换的局限。论文设计了结合CNN和Transformer的网络结构,有效整合局部和全局依赖,以提升图像融合的质量。实验结果显示,SwinFusion在多模态和特定任务图像融合中表现出色,尤其是在结构保持和纹理保存方面。
摘要由CSDN通过智能技术生成

@article{Ma2022SwinFusion,
author={Ma, Jiayi and Tang, Linfeng and Fan, Fan and Huang, Jun and Mei, Xiaoguang and Ma, Yong},
journal={IEEE/CAA Journal of Automatica Sinica},
title={SwinFusion: Cross-domain Long-range Learning for General Image Fusion via Swin Transformer},
year={2022},
volume={9},
number={7},
pages={1200-1217}
}


论文所在期刊:IEEE/CAA J. Autom. Sinica
发布时间:2022.7.1
所在级别:
影响因子:

论文下载
论文代码


论文笔记

关键词

Cross-domain long-range learning, image fusion,Swin transformer
跨域远程学习,图像融合,Swin transformer

提出问题

  • 传统框架通常在空间域或变换域中实现互补信息聚合,但它们都不能在非相邻像素之间进行信息交换,因此传统框架难以感知全局
  • 基于CNN、AE和gan的框架的基本组成部分是卷积层,它们只能在接受场内挖掘交互。然而,这些框架在利用局部信息进行图像融合的同时,不能利用域内或域间的远程依赖关系来进一步改善融合结果。
  • 现有的基于transformer的方法仅探索域内交互,而无法整合跨域上下文
  • 用于图像融合的视觉变形器通常要求输入图像可以被重塑为固定大小(例如256 × 256),这导致融合图像中的场景失真
  • 现有的融合transformers是针对特定的融合场景而设计的,没有考虑不同融合任务之间的内在联系

核心思想

设计了一种基于跨域远程学习和Swin Transformer的通用图像融合框架

  • 设计了一个联合CNN-Transformer图像融合框架来充分挖掘源图像中的局部和全局依赖关系。基于cnn的浅特征提取单元挖掘源图像中的局部信息。基于transformer的深度特征提取单元探索浅层特征之间的全局交互,生成包含高级语义信息的深层特征
  • 精心设计的注意力引导跨域融合模块有效地集成了深层特征的域内和域间交互。域内融合单元通过自关注机制聚合同一域内的全局上下文,域间融合单元对多源图像之间的远程依赖关系进行建模,通过交换来自不同域的查询、键和值,实现全局特征融合
  • 基于transformer的深度特征重构单元和基于cnn的融合图像重构单元利用全局和局部信息重构具有优越视觉感知的融合图像。
  • 自注意和交叉注意都是通过移位窗口机制(即Swin Transformer)实现的,它允许我们的框架处理任意大小的输入图像

网络结构

在这里插入图片描述

  • 提取浅层特征
    在这里插入图片描述
  • 提取深层特征:HDE(·)为包含N个Swin Transformer层的深度特征提取单元
    在这里插入图片描述
  • 首先设计了一个基于自关注的域内融合单元(intra-domain fusion unit),以有效地整合同一域内的全局交互
    • 将给定大小为H ×W ×C的特征F,reshape为HW/M2*M2*C,其中M为窗口大小,HW/M2即为这个F中能划分出的窗口总数
    • 接下来,对每个窗口分别执行标准的自我注意,对于一个局部窗口特征X∈RM2×C,使用三个跨不同窗口共享的可学习权矩阵WQ∈RC×C、WK∈RC×C和WV∈RC×C,将其投影到查询Q、键K和值V中
      在这里插入图片描述
  • 计算查询与所有键的点积,然后使用softmax运算符将其归一化以产生注意力分数。其中dk为键的维数,B为可学习的相对位置编码,将自注意扩展为多头自注意(MSA),使注意机制能够考虑各种注意分布
    在这里插入图片描述
  • 接下来,部署由两个多层感知器(MLP)层和GELU激活层组成的前馈网络(FFN)来改进MSA产生的特征令牌。层归一化(LN)总是在MSA和FFN之后进行,并将剩余连接应用于两个模块。局部窗口特征X的域内融合单元的整个过程表示为:
    • Z是以X为输入的域内融合单元的输出
      在这里插入图片描述
    • 前馈网络(FFN)如下:GELU是高斯误差线性单位
      在这里插入图片描述
      在这里插入图片描述
  • 注意力的移位窗口机制:可以看到,在第 l 层中,采用了常规的窗口划分方案,并在每个窗口内计算注意力。在下一层(即第 l + 1层)中,窗口分区被移动,从而产生新的窗口。
    在这里插入图片描述
  • 在域内融合单元的基础上,设计了基于交叉关注的域间融合单元,进一步整合不同域间的全局交互。域内融合单元和域间融合单元都遵循类似的基线。主要区别在于域间融合单元采用多头交叉注意(multi-head crossattention, MCA)而不是MSA来实现跨域的全局上下文交换,给定来自不同域的两个局部窗口特征X1和X2,将域间融合单元的整个过程定义为:
    • 对于来自域1的Q1,它通过与域2的K2和V2进行关注加权来融合跨域信息,同时通过残差连接保留域1的信息,反之亦然
    • 模型部署了L个注意力引导的跨域融合模块,由级联的域内融合单元和域间融合单元组成,交替集成全局的域间和跨域交互(这里L设置为2)
      在这里插入图片描述
  • 在注意引导的跨域融合模块之后,我们部署了一个带有空间不变滤波器的卷积层,用于聚合不同域的局部信息,增强我们的SwinFusion的平移等方差,可以表示为:
    • 其中F1 AF和F2 AF分别表示ACFM以F1 DF和F2 DF为输入聚合的输出特征。HConv(·)表示具有空间不变滤波器的卷积层,Concat(·)表示通道维度上的拼接。FFDF表示融合后的深度特征,是特征重构模块的输入
      在这里插入图片描述
  • 重建:在充分融合不同领域的互补信息后,我们设计了基于transformer的深度特征重建单元和基于cnn的图像重建单元,将融合后的深度特征映射回图像空间
    • 部署包含P个(文中设置P为4)Swin Transformer层的深度特征重构单元HDR(·),从全局角度对融合的深度特征进行细化,对融合的浅层特征进行恢复。这个过程可以表示为:
      在这里插入图片描述
    • 部署基于cnn的图像重构单元HIR(·),减少信道数,生成融合图像If
      在这里插入图片描述

损失函数

  • 将不同的图像融合问题归纳为结构保持、纹理保持和适当的强度控制,据此,我们设计了SSIM损耗、纹理损耗和强度损耗来约束网络
    • SSIM损失:作者任务此处两个原图对融合图像的贡献度是相同的,因此设置w1=w2=0.5
      在这里插入图片描述
    • 纹理损失:作者观察到,通过最大选择策略可以有效地聚合源图像中的纹理细节
      在这里插入图片描述
    • 强度损失:M(·)是一个基于元素的聚合操作,它取什么与特定的融合场景相关联,在可见光和红外图像融合(VIF)、医学图像融合(Med)和多焦点图像融合(MFF)中使用max(·),对于可见光和近红外图像融合(VIS-NIR)和多曝光图像融合(MEF),则用mean(·)。
      在这里插入图片描述
  • 总损失:
    在这里插入图片描述

数据集

*所有融合任务的训练和测试数据均来自公开可用的数据集MSRS

训练设置

  • Batch size设置为16
  • 每个融合任务需要10000个steps,在每一步中,来自训练集的图像被随机裁剪成128 × 128块,然后归一化为[0,1]
  • 使用Adam优化器
  • 学习率初始化为2×10-4,然后呈指数衰减
  • 总损失中,λ1 = 10、λ2 = 20、λ3 = 20
  • 窗口大小M设置为8
  • 处理RGB输入:RGB输入首先转换为YCbCr色彩空间
    • 对于多模态图像融合,由于只有可见光图像和PET图像包含颜色信息,因此融合后的Y通道与可见光图像(或PET图像)的Cb和Cr(色度)通道一起被映射回RGB颜色空间
    • 对于数码摄影图像融合,传统的Cb和Cr通道融合方法是:其中C1和C2分别为源图像I1和I2的Cb和Cr通道。Cf为对应信道的融合结果。本文将τ设为128。然后,将融合的Y、Cb、Cr通道通过逆转换转换为RGB色彩空间。从而将多模态图像融合和数字摄影图像融合统一为单通道图像融合问题。
      在这里插入图片描述
  • 处理序列输入:最初合并了两个序列图像。然后,将中间结果与另一源图像融合,生成最终融合图像。通过这种方式,SwinFusion理论上能够融合任意数量的序列图像
    • 多重曝光融合:
      在这里插入图片描述
    • 多重聚焦融合:
      在这里插入图片描述

实验

评价指标

  • 特征互信息(feature mutual information, FMI)
  • Qabf
  • 结构相似性(structural similarity, SSIM)
  • 峰值信噪比(peak signal- tonoratio, PSNR)
    不懂的可以看看这个:图像融合网络的通用评估指标

Baseline

  • 四种统一的图像融合算法是:IFCNN, PMGI, SDNet,U2Fusion
  • 三种特定任务的VIF融合方法:GTF、DenseFuse、FusionGAN
  • VIS-NIR的特定任务比较算法:ANVF、DenseFuse、GANMcC
  • 医学图像融合任务中选择的三种特定任务方法:CSMCA、EMFusion、DDcGAN
  • 针对特定任务的MEF替代方案:SPD-MEF,MEFNet,MEF-GAN
  • MFF的三种比较方法:SFMD、DRPL、MFFGAN
    除GTF、ANVF、CSMCA、SPD-MEF、SFMD是采用传统的方案,其他算法都是基于深度学习的方法

实验结果

  • 定量比较:表1显示了SwinFusion和最先进算法之间的定量比较。正如我们所看到的,SwinFusion在几乎所有多模态图像融合任务的指标中都取得了领先地位。但是方案在VIF上的PSNR落后于其他竞争对手,作者认为是合理的,模型通过充分整合源图像中的全局相互作用,更加关注红外图像中的显著目标区域,导致非显著区域的信息丢失
    在这里插入图片描述
  • SwinFusion与五种最先进的可见光和红外图像融合方法的定性比较在这里插入图片描述
  • SwinFusion与五种最先进的可见光和近红外图像融合方法的定性比较:作者的方法由于充分的全局信息聚合、有效的结构维护和纹理保存,在定量评估方面具有优势
    在这里插入图片描述
  • SwinFusion与五种最先进的PET和MRI图像融合方法的定性比较:作者的融合模型通过有效的结构维护、全局交互聚合和适当的强度控制,既能保留MRI图像中丰富的细节,又能充分表征PET图像中的功能信息
    在这里插入图片描述
  • SwinFusion与五种最先进的CT和MRI图像融合方法的定性比较:SwinFusion在不丢失软组织细节和解剖信息的前提下,保留了更多的结构(纹理)信息
    在这里插入图片描述
  • 数字摄影图像融合场景的定量比较。红色表示最佳结果,蓝色表示次优结果
    在这里插入图片描述
  • 多曝光图像融合的定性结果:SwinFsuion可以有效地合并源图像中的互补信息,并通过全局曝光感知保持适当的曝光水平
    在这里插入图片描述
  • 多焦点图像融合的定性结果:每个方法得到一个差异图,表示近焦图像与融合结果之间的差异,可以发现,该方法实现了自适应焦点区域感知,并通过全局上下文聚合保持适当的强度分布
    在这里插入图片描述
  • MSRS数据集上可见光、红外和融合图像的分割性能(miou):从结果中可以看出,作者的融合方法可以有效地促进分割模型通过充分整合模内和模间的互补信息以及全局背景来感知成像场景
    在这里插入图片描述
  • 全局信息的可视化。
    在这里插入图片描述
  • 语义分割的可视化结果
    在这里插入图片描述
  • 目标检测的视觉结果。从上到下分别是由SwinFusion生成的红外图像、可见光图像和融合图像的检测结果
    在这里插入图片描述
  • MSRS数据集上可见光、红外和融合图像的目标检测性能:该检测模型在可见光图像上具有较好的汽车检测性能,而在红外图像上具有较好的行人检测性能,融合图像的行人检测性能虽然不如红外图像,但也有其合理性。红外图像仅采集突出物体的热辐射信息,忽略了周围环境,对人等突出目标对比度更高,便于探测器检测行人
    在这里插入图片描述
  • 深度估计的多焦点图像融合:作者的方法有效地将源图像聚焦区域的场景信息整合到单个全聚焦图像中。因此,AdaBins能够成功地从融合图像中估计出所有物体的密集深度图
    在这里插入图片描述
  • 消融实验
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述

传送门

其他笔记

读论文:Real-Time Semantics-Driven Infrared and Visible Image Fusion Network
读论文:Real-time infrared and visible image fusion network using adaptive pixel weighting strategy

Transformer发轫于NLP(自然语言处理),并跨界应用到CV(计算机视觉)领域。 Swin Transformer是基于Transformer的计算机视觉骨干网,在图像分类、目标检测、实例分割、语义分割等多项下游CV应用中取得了SOTA的性能。该项工作也获得了ICCV 2021顶会最佳论文奖。 本课程将手把手地教大家使用labelImg标注和使用Swin Transformer训练自己的数据集。  本课程将介绍Transformer及在CV领域的应用、Swin Transformer的原理。 课程以多目标检测(足球和梅西同时检测)为例进行Swin Transformer实战演示。 课程在Windows和Ubuntu系统上分别做项目演示。包括:安装软件环境、安装Pytorch、安装Swin-Transformer-Object-Detection、标注自己的数据集、准备自己的数据集(自动划分训练集和验证集)、数据集格式转换(Python脚本完成)、修改配置文件、训练自己的数据集、测试训练出的网络模型、性能统计、日志分析。  相关课程: 《Transformer原理与代码精讲(PyTorch)》https://edu.csdn.net/course/detail/36697《Transformer原理与代码精讲(TensorFlow)》https://edu.csdn.net/course/detail/36699《ViT(Vision Transformer)原理与代码精讲》https://edu.csdn.net/course/detail/36719《DETR原理与代码精讲》https://edu.csdn.net/course/detail/36768《Swin Transformer实战目标检测:训练自己的数据集》https://edu.csdn.net/course/detail/36585《Swin Transformer实战实例分割:训练自己的数据集》https://edu.csdn.net/course/detail/36586《Swin Transformer原理与代码精讲》 https://download.csdn.net/course/detail/37045
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值