DenseFuse: A Fusion Approach to Infrared and Visible Images 阅读笔记

最新推荐文章于 2025-04-01 20:19:55 发布

小王不头秃

最新推荐文章于 2025-04-01 20:19:55 发布

阅读量4k

点赞数 11

分类专栏：图像融合

本文链接：https://blog.csdn.net/qq_43627076/article/details/127184135

版权

图像融合专栏收录该内容

19 篇文章

订阅专栏

DenseFuse: A Fusion Approach to Infrared and Visible Images 阅读笔记

摘要
介绍
相关工作
融合方法
实验结果
感悟
参考

论文地址：https://arxiv.org/abs/1804.08361

如有侵权请联系我们

摘要

提出了一种新的红外和可见光图像融合问题的深度学习体系结构。与传统的卷

积网络不同，我们的编码网络是由卷积层、融合层和稠密块组成的，其中每层

的输出相互连接。我们尝试使用这种架构在编码过程中从源图像中获取更多有

用的特征。设计了两个融合层（融合策略）来融合这些特征。最后，通过解码

器重建融合图像。

介绍

网络中包含编码网络和解码网络

编码网络包含CNN和DENSE block，由该网络提取图像特征

设置DENSE block的原因是因为传统的CNN只使用最后一层的feature map，这就损失了之前层中的信息，而dense block 很好的规避了这个问题

如下图，这是传统的神经网络
在这里插入图片描述
下图是dense block

可以看出，每一层的结果都传递给之后的每一层，这样保证了中间层的有效信息也可以被使用

融合策略用于融合图像，文中提到的融合策略有两种，分别是加法策略和l1-norm 策略

解码网络有4个CNN，用于重构图像

整个网络结构如下图所示
在这里插入图片描述

融合方法

文章中主要提到的是灰度图像的融合，因为彩色图像的融合和灰度图像的融合相似，文章中就没有细致介绍。

如下图所示，输入模型中的I1到Ik，包括红外图像和可视图像，这里不做区分，这里输入的图像数量k>=2，这里我个人的理解是，我们需要做红外图像和可视图像的融合，这就要保证输入模型中图片至少有一个可视图像和一个红外图像，所以说需要k>=2。

而且输入的图像应该是对齐的，如果没有对齐，会使用其他三篇论文中所提到的对齐算法进行对齐（这三篇论文还没读，之后看看）

网络的架构包含三部分，编码器，融合层和解码器

在这里插入图片描述

编码器

包含两部分，一层普通的CNN和一个DenseBlock，DenseBlock在第一部分的介绍中已经解释了，这里就不再做说明。

第一层CNN用于提取粗糙的图像特征，之后在进入DenseBlock之后，由于DenseBlock结构的特殊性，可以避免中间层重要特征的丢失

编码器中的CNN使用的卷积核都是3*3，步长都是为1，这就使得任何大小的图像都可以作为该模型的输入

对于编码网络中的每个卷积层，特征映射的输入通道数为16。

编码层输出会作为融合层的输入

解码器

解码器同样也有四个CNN层，解码器中的输入通道从左至右越来越少，直到最后输出时就是一个通道了，最后一个通道的结果就是我们重建的图像

融合层

两个融合策略

相加策略
l1-norm Strategy（不知道咋翻译。。。。。。）

训练

训练过程中只对编码器和解码器进行训练，当二者被训练好之后，在使用适应的融合策略对编码器获得的特征进行融合，然后再交给解码器进行重建图像，这种训练模式的好处可以为特定的融合任务设计合适的融合层，并且为融合层的下一步发展提供了空间。

网络结构

整个网络的结构如下图所示
在这里插入图片描述

可以看出所有曾使用的激活函数都是Relu

损失函数

损失函数使用如下公式

在这里插入图片描述
Lssim是结构相似性损失，Lp是像素损失

在这里插入图片描述

O是输出图像
I是输入图像
Lp就是二者之间的欧氏距离

在这里插入图片描述

SSIM是结构相似性运算，具体内容参考该论文

Wang Z, Bovik A C, Sheikh H R, et al. Image quality assessment:
from error visibility to structural similarity[J]. IEEE transactions on image
processing, 2004, 13(4): 600-612.

因为结构相似性损失和像素损失之间相差三个数量级，因此lamda设置为1，10，100，1000

训练数据集

采用MS-COCO作为训练的数据集

下载地址参考该文章MS COCO数据集下载链接

在训练时，将图像转换为256*256大小，并且调整为灰度图

采用随机梯度下降方法进行训练，批量设置为2，周期设置为2

融合层

加法策略（Addition Strategy）

参考文章

Prabhakar K R, Srikar V S, Babu R V . DeepFuse: A Deep Unsu-
pervised Approach for Exposure Fusion with Extreme Exposure Im-
age Pairs[C]//2017 IEEE International Conference on Computer Vision
(ICCV). IEEE, 2017: 4724-4732.

与上述文章中提到的策略相似，公式如下

在这里插入图片描述