图像融合论文阅读：A Deep Learning Framework for Infrared and Visible Image Fusion Without Strict Registration

图像强

已于 2024-01-04 09:37:09 修改

阅读量5k

点赞数 31

分类专栏：图像融合文章标签：论文阅读深度学习人工智能图像融合图像处理论文笔记

于 2024-01-04 09:32:51 首次发布

本文链接：https://blog.csdn.net/jiexiang5396/article/details/135355216

版权

图像融合专栏收录该内容

37 篇文章 61 订阅

订阅专栏

本文介绍了一种新的深度学习方法，用于解决红外和可见光图像融合中的配准问题。该方法利用CNN和Transformer的分层交互嵌入模块（CTHIE），以及动态聚合特征表示（DRFR）和完全感知前向融合（FPFF），能够在无需严格配准的情况下生成高质量融合图像。研究采用了多个数据集进行训练，并与多种基线方法进行了对比。

摘要由CSDN通过智能技术生成

@article{li2023deep,
title={A Deep Learning Framework for Infrared and Visible Image Fusion Without Strict Registration},
author={Li, Huafeng and Liu, Junyu and Zhang, Yafei and Liu, Yu},
journal={International Journal of Computer Vision},
pages={1–20},
year={2023},
publisher={Springer}
}

论文级别：SCIA2/Q1
影响因子：19.5

📖[论文下载地址]

🌻【如侵权请私信我删除】

📖论文解读

以往的融合算法需要在配准的图像上进行，为了解决这个问题，作者提出了一种融合不需要严格配准可见光和红外图像的算法，该算法利用CNN和Transformer分层交互嵌入模块（CNN-Transformer Hierarchical Interactive Embedding ， CTHIE）提取特征，设计了一个动态聚合特征表示（Dynamic Re-aggregation Feature Representation ， DRFR）模块用来配准。再使用完全感知前向融合（Fully Perceptual Forward Fusion ， FPFF）生成融合图像。

🔑关键词

Infrared and visible image fusion · Misalignment · Convolutional neural network · Transformer
红外与可见光图像融合，非配准，卷积神经网络，Transformer

💭核心思想

参考链接
[什么是图像融合？（一看就通，通俗易懂）]

🪢网络结构

作者提出的网络结构如下图1所示。
在这里插入图片描述

看起来很复杂是不是，别担心，继续往下看。
我们先关注一路数据流，理解后另外一路也就明白了。
在这里插入图片描述

作者首先使用FEB-CL对配准图像对 $x_{ir},x_{vi})$ 和未配准图像对 $(\hat x_{ir},x_{vi})$ 进行特征提取，然后将特征图输入CTHIE，即上图中灰色块标记的地方，内部结构先不管。
注意，这里和普通的ViT不同，作者没有将源图像变成patches输入，而是提取其特征图作为输入。特征图为不同通道的特征组成的特征向量

我们梳理一下结构

FEB-CL
Feature Extraction Block based on Conv layers ，基于卷积层的特征提取模块，用来获取多通道的特征图，便于后续使用Transformer继续进行特征提取。如下图

🪢CTHIE

CNN和Transformer分层交互嵌入模块（CNN-Transformer Hierarchical Interactive Embedding），里面主要是由CETB（CNN Embedded Transformer Block），即嵌入Transformer块的CNN，以及普通的卷积层组成，对应图1里用灰色块标记的区域。在CETB和卷积层多层之间交互传递信息，即卷积层提取的特征输入CETB，CETB提取的特征再输入下一层的卷积层。同时在CTHIE里还加入了跳跃链接，借鉴了DenseNet的思想。如下图
在这里插入图片描述
其中，蓝色CETB的内部结构如下图所示

$\hat F_j^{c,i}$ 表示第i个卷积层的输出。对于每个CETB来说都有多个输入。
第一个CETB较为特殊，因为其之前没有卷积层，所以将两个 $\hat F_j^{t_0}$ 作为其输入，一个输入到LN层，另一个作为 $\hat F_j^{f, 0}$ 输入到FIB处。
对于之后的CETB， $\hat F_j^{i-1}$ 是第(i-1)个CETB的输出，
卷积层的内部结构如下图，加入了密集连接。
在这里插入图片描述

🪢DRFR

动态聚合特征表示（Dynamic Re-aggregation Feature Representation ， DRFR）模块用来配准，其核心思想是将红外图像(x,y)处的特征向量，视为其邻域的特征向量的线性组合，对红外图像(x,y)处的特征向量赋予更大的权重，以此来减轻非严格配准对图像融合的影响。如下图
在这里插入图片描述
网络里的DRFR结构如下图，由特征调整模块和重配准模块构成。