DenseFuse: A Fusion Approach to Infrared and Visible Images 阅读笔记

论文地址:https://arxiv.org/abs/1804.08361

如有侵权请联系我们

摘要

提出了一种新的红外和可见光图像融合问题的深度学习体系结构。与传统的卷

积网络不同,我们的编码网络是由卷积层、融合层和稠密块组成的,其中每层

的输出相互连接。我们尝试使用这种架构在编码过程中从源图像中获取更多有

用的特征。设计了两个融合层(融合策略)来融合这些特征。最后,通过解码

器重建融合图像。

介绍

网络中包含编码网络和解码网络

编码网络包含CNN和DENSE block,由该网络提取图像特征

设置DENSE block的原因是因为传统的CNN只使用最后一层的feature map,这就损失了之前层中的信息,而dense block 很好的规避了这个问题

如下图,这是传统的神经网络
在这里插入图片描述
下图是dense block
在这里插入图片描述
可以看出,每一层的结果都传递给之后的每一层,这样保证了中间层的有效信息也可以被使用

融合策略用于融合图像,文中提到的融合策略有两种,分别是加法策略和l1-norm 策略

解码网络有4个CNN,用于重构图像

整个网络结构如下图所示
在这里插入图片描述

相关工作

等等等等等等。。。。。。

融合方法

文章中主要提到的是灰度图像的融合,因为彩色图像的融合和灰度图像的融合相似,文章中就没有细致介绍。

如下图所示,输入模型中的I1到Ik,包括红外图像和可视图像,这里不做区分,这里输入的图像数量k>=2,这里我个人的理解是,我们需要做红外图像和可视图像的融合,这就要保证输入模型中图片至少有一个可视图像和一个红外图像,所以说需要k>=2。

而且输入的图像应该是对齐的,如果没有对齐,会使用其他三篇论文中所提到的对齐算法进行对齐(这三篇论文还没读,之后看看)

网络的架构包含三部分,编码器,融合层和解码器

在这里插入图片描述

编码器

包含两部分,一层普通的CNN和一个DenseBlock,DenseBlock在第一部分的介绍中已经解释了,这里就不再做说明。

第一层CNN用于提取粗糙的图像特征,之后在进入DenseBlock之后,由于DenseBlock结构的特殊性,可以避免中间层重要特征的丢失

编码器中的CNN使用的卷积核都是3*3,步长都是为1,这就使得任何大小的图像都可以作为该模型的输入

对于编码网络中的每个卷积层,特征映射的输入通道数为16。

编码层输出会作为融合层的输入

解码器

解码器同样也有四个CNN层,解码器中的输入通道从左至右越来越少,直到最后输出时就是一个通道了,最后一个通道的结果就是我们重建的图像

融合层

两个融合策略

  • 相加策略
  • l1-norm Strategy(不知道咋翻译。。。。。。)

训练

训练过程中只对编码器和解码器进行训练,当二者被训练好之后,在使用适应的融合策略对编码器获得的特征进行融合,然后再交给解码器进行重建图像,这种训练模式的好处可以为特定的融合任务设计合适的融合层,并且为融合层的下一步发展提供了空间。

网络结构

整个网络的结构如下图所示
在这里插入图片描述

可以看出所有曾使用的激活函数都是Relu

损失函数

损失函数使用如下公式

在这里插入图片描述
Lssim是结构相似性损失,Lp是像素损失

在这里插入图片描述

O是输出图像
I是输入图像
Lp就是二者之间的欧氏距离

在这里插入图片描述

SSIM是结构相似性运算,具体内容参考该论文

Wang Z, Bovik A C, Sheikh H R, et al. Image quality assessment:
from error visibility to structural similarity[J]. IEEE transactions on image
processing, 2004, 13(4): 600-612.

因为结构相似性损失和像素损失之间相差三个数量级,因此lamda设置为1,10,100,1000

训练数据集

采用MS-COCO作为训练的数据集

下载地址参考该文章MS COCO数据集下载链接

在训练时,将图像转换为256*256大小,并且调整为灰度图

采用随机梯度下降方法进行训练,批量设置为2,周期设置为2

融合层

加法策略(Addition Strategy)

参考文章

Prabhakar K R, Srikar V S, Babu R V . DeepFuse: A Deep Unsu-
pervised Approach for Exposure Fusion with Extreme Exposure Im-
age Pairs[C]//2017 IEEE International Conference on Computer Vision
(ICCV). IEEE, 2017: 4724-4732.

与上述文章中提到的策略相似,公式如下

在这里插入图片描述

这里的fm代表融合之后的第m个通道的特征映射,φmi代表第 i 张图像的第 m 个通道的特征映射

这里的m满足 1=<m<=64,

不知道大家有没有和我一样疑惑的,这里的m为什么是<=64,明明上图结构提到的最后一层的输出是16通道的,如果有这个疑惑的话,看下图

这时因为使用的是DenseBlock,融合层的输入不仅仅只有DC3传递的16通道的特征映射,还有前面C1,DC1和DC2传递的特征映射,刚好是64个
在这里插入图片描述

l1-norm Strategy

公式如下
在这里插入图片描述

在这里插入图片描述

在这里插入图片描述
参考

Liu Y , Chen X, Ward R K, et al. Image fusion with convolutional
sparse representation[J]. IEEE signal processing letters, 2016, 23(12):
1882-1886.

这里没怎么看懂,后期再来补

总结

最后生成的fm作为解码器的输入

实验结果

这里回忆下前文损失函数的λ,当 λ 越大时,损失会下降的更快,但文中又提出当训练超过40000次时,无论选择 λ 为何值,都会产生最好的权重结果,但是 λ 越大培训阶段消耗的时间越少。

为了比较文中提到的融合方法与其他方法的优劣,使用了七个参数,有兴趣的去看一下(ps: 这里为啥不解释,因为我不知道这几个参数是干啥的)
在这里插入图片描述

这里稍微提下文章中关于色彩图像的融合,其实就是将彩色图像看作三个单通道的灰度图,将他们作为输入进行融合,最后再将三通道结合在一起

感悟

读了几遍之后,还有很多的不懂得,这里记录下现在的感悟,估计以后还会再改该文章

最后记录一下,第一次跑动论文的代码

艾玛,太不容易了

在这里插入图片描述

终于上GPU版本的Pytorch了

论文代码

pytorch版本

tensorflow版本

参考

[1] DenseFuse: A Fusion Approach to Infrared and Visible Images

  • 7
    点赞
  • 22
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 7
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 7
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

小王不头秃

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值