【红外与可见光图像融合】A Multi-scale Information Integration Framework for Infrared and Visible Image Fusion

yeager415

于 2024-03-16 18:01:13 发布

阅读量1.4k

点赞数 32

文章标签：计算机视觉人工智能机器学习

本文链接：https://blog.csdn.net/learnererer/article/details/136740374

版权

本文改进了损失函数，使得损失项的权重系数可以自适应调整(可学习的)。
网络部分就是提取了多尺度信息，不同尺度之间在特征融合阶段有交互，融合阶段使用了空间和通道dual attention，基于IR和VIS提取的特征不同，将（L+1）层的 IR 图像上采样到 L 层，与L层的VIS图像相加，做一个信息补充，然后使用注意力机制进行加权。

1、Motivation以及Contribution

一般使用像素强度信息去约束热辐射信息的保留，使用梯度信息来约束纹理细节信息。
作者提到了一些方法在特征提取部分使用残差连接或者密集连接来捕获纹理细节，但这并没有充分的提取互补信息，这一点在红外图像融合中尤其关键。
现有方法在计算损失函数和特征融合模块中都很少使用互补信息度量。

使用多尺度信息与人眼视觉特征类似，融合结果可以从高级表征中获得上下文信息，从低级表征中获得细节信息。

高分辨率特征更有利于测量和保留细节信息，而低分辨率特征可以准确测量像素强度分布

通过统计方法有效测量红外和可见光图像的互补信息，并对损失函数中每一项产生自适应权重系数，约束融合结果与输入图像对的差异，量化各模态重要信息的保留程度
我们设计了一个用于红外和可见光图像融合的多尺度双注意(MDA)框架，该框架利用像素强度和纹理细节信息从多个空间尺度上的不同模态提取特征。在损失函数中引入互补信息测量，提高了融合图像的热辐射和细节特征的保存。
设计了基于空间和通道注意机制的双注意融合块，通过注意图确定重要空间区域和通道重要性，进行多尺度特征融合

MDA获取互补信息，style loss使得融合结果保持与IR图像相同的像素强度分布。

2、网络结构

在这里插入图片描述
这里多尺度信息是分别使用stride=1，2，4的核提取的。（~~信息提取的真的充分吗？？？？？~~ ）

作者说特征提取后，多尺度特征表示通过保持高分辨率特征图来保留丰富的细节信息，同时从低分辨率特征图中传递上下文信息

IR和VIS分别提取3个尺度的特征，这样得到6组特征图，然后作者借鉴《Multi-scale interactive network for salient object detection》的整合多尺度特征的策略，相邻的特征图整合到一起（分辨率差异大的特征整合会引入噪声，使得融合困难，带来计算成本。）这个相邻尺度的两种特征的融合不是随便的，它是高分辨率的可见光图像和低分辨率的红外图像融合，因为可见光图像有更丰富的细节信息。
在这里插入图片描述

相邻尺度使得信息集成过程可以同时考虑特定于模态和特定于尺度的互补信息。

在这里插入图片描述
低分辨率的IR图像上采样与高分辨率的VIS图像整合，分别在空间和通道维度上探索它们之间的关系。

3、损失函数

我们的工作旨在有效地测量和保持模态之间的互补信息，因此我们设计了损失函数，首先测量每个模态的重要信息，然后根据重要信息的计算结果约束输出。具体而言，我们采用信息度量方法来估计重要信息，并为损失函数中的像素项生成权重，确定信息保留程度。

在这里插入图片描述

超参分别设置为1e-8，1e7
第二项：
超参设置为0.02

在这里插入图片描述
就是五个融合块的损失。使用的是LoG梯度算子，但这里每一个融合块的超参怎么设置的？手动

第三项：在这里插入图片描述

使用VGG-16提取的前两层IR特征和融合图像做约束，引用风格迁移中的损失来限制融合图像和红外图像的灰度值分布。

第一项：
又包括两项
在这里插入图片描述
超参设置为2
分别为：

在这里插入图片描述

作者引用《Perceptual losses for realtime style transfer and super-resolution》：

基于预训练网络中提取的高级特征，感知损失比像素损失更鲁棒地度量图像相似性，因此我们采用预训练的VGG-16网络[48]来度量互补信息，并为损失函数中的每一项生成权重。

同时可视化了VGG-16提取的特征图
在这里插入图片描述

高层几乎什么都看不见了，因此只用第一和第二层提取的特征。（~~难道不是因为本文的特征提取部分太浅了？~~ ）
强度的约束系数计算公式为：

作者说交叉熵是用来测量图片中含有的信息，标准差反应了对比度，可以用来测量图片总体的像素强度分布。

在这里插入图片描述
就是VGG对原图像IR和VIS（通道都是1）分别提取的C个通道的特征图，取VGG的第一层和第二层，分别计算。
对第一层来说就是，C个通道的特征图，分别计算交叉熵和标准差。
梯度的约束系数为：

同样使用LoG梯度算子。
两个系数只对原图像使用预训练的VGG提取特征计算，结果是固定的啊这是计算IR图像和VIS分别在梯度信息还有强度信息的比重，然后用这个比率去约束定义的损失函数。

Lpixel包括的两项损失形式是一样的，只不过L（image）使用的MSSIM，L（patch）使用的是SSIM
同时L（ patch）不是在像素级上约束，而是设定了一个局部滑动窗口W为21*21，小区域内灰度值而不是交叉熵决定了像素强度，所以patch中的权重系数的计算换成了窗口W内的平均像素值：
在这里插入图片描述

作者解释说：

由于红外图像更丰富的热辐射信息集中在灰度值较大的区域，我们期望该局部区域的融合结果像素强度与红外图像的对应位置相似，可见图像的局部纹理细节也与红外图像的对应位置相似

4、实验结果

结果表明，我们的结果可以保持高对比度的像素强度，如红外图像中较亮的目标或可见光图像中的照明区域。

在这里插入图片描述
其实整体结果偏红外，所以作者才引用了《Demystifying neural style transfer》认为神经风格迁移的本质是将风格图像与生成图像之间的特征分布进行匹配。由于红外图像的像素灰度分布与热辐射高度相关，**我们期望融合图像与红外图像在风格上更接近。**来作解释。

5、消融实验

在这里插入图片描述
红外特征图Fir的关键信息是包括人和门在内的区域，而这些区域在可见光特征图Fvis中并不重要。然而，这些区域在可见的注意图中被突出显示，这意味着两种模式之间的信息通过双注意融合块被有效地整合。

对比了其他融合策略：
在这里插入图片描述

把pixel损失中的权重系数分别换成了0.5的实验
在这里插入图片描述
可以看出，如果没有本文方法生成的自适应权值，两种固定权值的融合结果都缺乏准确的详细信息。

使用不同层的VGG的实验
在这里插入图片描述
VGG-16的深层特征图中包含的数据信息很差，因此我们使用不同深度的VGG-16特征图生成的权重来说明融合结果，如图9所示。定性结果验证了第三节的分析，VGG16的深层特征图几乎没有传递强度信息

yeager415

关注

32
点赞
踩
28

收藏

觉得还不错? 一键收藏
1
评论
【红外与可见光图像融合】A Multi-scale Information Integration Framework for Infrared and Visible Image Fusion

本文改进了损失函数，使得损失项的权重系数可以自适应调整(可学习的)。网络部分就是提取了多尺度信息，不同尺度之间在特征融合阶段有交互，融合阶段使用了空间和通道dual attention，基于IR和VIS提取的特征不同，将（L+1）层的 IR 图像上采样到 L 层，与L层的VIS图像相加，做一个信息补充，然后使用注意力机制进行加权。
复制链接

扫一扫