图像融合论文速读：CFNet: An infrared and visible image compression fusion network

最新推荐文章于 2025-01-24 16:01:50 发布

图像强

最新推荐文章于 2025-01-24 16:01:50 发布

阅读量1.6k

点赞数 16

分类专栏：图像融合文章标签： python 论文阅读图像融合深度学习

本文链接：https://blog.csdn.net/jiexiang5396/article/details/144832176

版权

图像融合专栏收录该内容

40 篇文章

订阅专栏

@article{xing2024cfnet,
title={CFNet: An infrared and visible image compression fusion network},
author={Xing, Mengliang and Liu, Gang and Tang, Haojie and Qian, Yao and Zhang, Jun},
journal={Pattern Recognition},
volume={156},
pages={110774},
year={2024},
publisher={Elsevier}
}

中科/JCR分区：1区/Q1

影响因子：14.8

📖[论文下载地址]
💽[代码下载地址]

📖论文解读

现有方法没有充分考虑图像数据的冗余度和传输效率。针对这一局限性，提出了一种基于联合CNN和Transformer的红外与可见光图像压缩融合网络CFNet。首先，将变分自动编码器图像压缩的思想引入到图像融合框架中，在保持图像融合质量和降低冗余度的同时，实现了数据压缩。在此基础上，提出了一种CNN和Transformer联合网络结构，该网络结构综合考虑了CNN提取的局部信息和Transformer强调的全局远程依赖关系。最后，利用基于感兴趣区域的多通道损失来指导网络训练。不仅可以直接融合彩色可见光和红外图像，而且可以将更多的比特分配给感兴趣的前景区域，从而获得更高的压缩比。

说重点就是,结合了变分自动编码器VAE，结合了CNN和Transformer、可以直接融合彩色可见光和红外图像、考虑了冗余度和传输效率
在这里插入图片描述

🔑关键词

Image fusion 图像融合
Image compression 图像压缩
Variational autoencoder 变分自编码器
Transformer
Region of interest

💭核心思想

将VAE引入IVIF，而且考虑了数据传输的问题
将变分自动编码器(VAE)图像压缩模型引入到图像融合框架中。具体地，通过图像编码器将图像映射到潜在特征空间，便于后续的量化编码过程。然后，利用超先验编解码器得到特征点的概率分布函数，从而得到更紧凑的特征。这在最大程度上消除了统计上的依赖性。然后应用量化编码来生成用于存储和传输的比特流，随后对其进行解码以产生最终的融合图像。
将CNN和Transformer嵌入到同一个模块中，以聚合本地和非本地信息。
用多通道像素损失和多通道梯度损失指导网络训练

🎖️本文贡献

这是VAE压缩框架首次被引入图像融合领域
提出了一种新颖的CNN和Transformer联合网络结构
设计了一种新颖的感兴趣区域多通道损失函数来指导网络训练

🪅相关背景知识

深度学习
神经网络
图像融合
VAE

扩展学习
[什么是图像融合？（一看就通，通俗易懂）]
[详解VAE（变分自编码器）]

🪢网络结构

作者提出的网络结构如下所示。

在这里插入图片描述
首先可以看到，模型的输入为三通道RGB彩色可见光图像和单通道的红外图像。
网络结构包括：图像编码器模块𝑔𝑎、超先验编码器模块ℎ𝑎、超先验解码器模块ℎ𝑠、图像解码器模块𝑔𝑠和两个量化和熵编码模块𝑈|𝑄𝑦和𝑈|𝑄𝑧
该模型的过程可以表示为：
首先将红外图像和可见光图像输入至图像编码模块得到潜在特征表示y。然后将其输入至超先验编码器模块，得到超先验表示z。将z量化转换为离散形式得到 $\hat z$ 。将 $\hat z$ 输入超先验解码器得到均值 𝜇 和标准差 𝜎，y根据概率分布进行编码得到 $\hat y$ ，通过图像解码器得到最终的融合图像。
具体来说，超先验编码器将输入数据 𝑦 映射到表示 𝑧 的编码。表明𝑧旨在捕获𝑦的关键信息，同时去除冗余和不相关的部分，从而实现数据的有效压缩。
JCT的结构如下图
在这里插入图片描述

📉损失函数

训练过程损失包括融合损失和比率损失

📉融合损失

在这里插入图片描述

📉比率损失

最小平均码长 $\mathcal R$ 是通过最小化对原始图像𝑝𝑥的数据分布𝑥的期望来实现的。 $\mathcal R$ 由潜在表示和实际分布之间的香农交叉点给出：
在这里插入图片描述

🔢数据集

M3FD
RoadScene
TNO

图像融合数据集链接
[图像融合常用数据集整理]

🎢训练设置

在训练阶段，将图像大小随机裁剪为 256 × 256。控制各种损失项的超参数根据经验设置为 𝜆 = 500，𝛼 = 0.5。 CFNet是在PyTorch平台上实现的。 Adam 的批量大小为 8，用作训练模型的优化器。学习率设置为0.0001。 epoch 设置为 200。对于 Swin Transformer 块，窗口大小在图像编解码器中设置为 8，在超先验编解码器中设置为 4。在测试阶段，图像在输入到网络之前会被填充到128的倍数，然后在融合后裁剪到原始尺寸。 CFNet算法伪代码如算法1所示。训练平台配备Intel® Xeon® Silver 4210R CPU、64 GB内存和NVIDIA GeForce GTX 3090 GPU。