【IVIF】Two-Level Consistency Metric for Infrared and Visible Image Fusion

最新推荐文章于 2024-07-06 12:30:00 发布

yeager415

最新推荐文章于 2024-07-06 12:30:00 发布

阅读量774

点赞数 28

分类专栏：图像融合文章标签：计算机视觉深度学习人工智能

本文链接：https://blog.csdn.net/learnererer/article/details/138152183

版权

图像融合专栏收录该内容

6 篇文章 1 订阅

订阅专栏

本文的特征提取和图像重建部分的网络很简单，就使用了一个U-Net+，作者分析说IVIF任务没有GT，都是通过设计损失函数来约束融合图像和源图像之间的距离，这是一种**单层一致性度量**，即最终的融合结果接近于源图像之间的折中。作者认为源图像的高频信息没有很好保留（作者在行文里先举了几个例子来说明这一点）因此作者设计了一个分支，使用傅里叶变换，即高频注意力模块获取增强的源图像，然后使用损失函数约束融合结果F和增强的源图像之间的距离，同时，设计了一个Fusion Measurement模块用于分解F得到IR和VIS，进一步和增强的源图像之间做约束，此为：Two-Level Consistency Metric

发表自TIM 2022
代码公开

Ma J.Y.组有一篇文章，输入X--->融合结果Y---->分解Xde，X和Y之间有个损失，分解的Xde和X也有一个损失。也是一个分解双约束的思想。不同的是，作者动机是保持高频部分，这里把X通过高频注意力模块增强了高频部分得到了Xen，使用Xen与Y和Xde做约束。

1、目前方法存在的问题

1）大多数方法中手动设计的融合规则过于复杂。

2）特征提取忽略了两个源图像的独特特性。因此，融合结果无法有效地保留关键信息。

3）基于表示学习的方法的性能对源图像的复杂性敏感。

作者分别展示了IR和VIS的高频部分，以及不同融合方法结果的高频部分

我们的贡献：

1）源图像的高频部分在频率域中被捕获，这使得两种类型源图像的关键信息能够通过频率注意力操作进行增强。

2）由于IVIF任务中没有地面真相，提出了一种新颖的融合性能测量方法，通过计算分解图像和增强源图像之间的距离来衡量。此外，设计了一个图像融合测量模块，将融合图像分解为两种类型的源图像

第二点贡献就是点题，题目是两层的一致性度量嘛，这里说在分解图像和增强的源图像之间也设置了个损失（这点不是首创昂，一些人已经这样做过了，不过作者是换了个理解，换了个说话，表述地很好，故事讲的不错）

2、问题描述

在基于深度学习的算法中，最重要的问题是正确引导网络生成包含源图像重要和互补信息的融合结果，例如红外图像的热辐射目标和可见光图像的纹理细节。这个问题最终是一个图像融合度量问题。无监督方法测量融合结果与两种类型源图像之间的相关性，这往往会导致对两个源图像的折中。由于这个问题，源图像的独特特征无法在融合结果中得到很好地保留。因此，度量问题被概括为两个部分：定位两个源图像的关键信息和测量目标。

源图像的关键信息可以描述为红外图像的突出部分和可见光图像的纹理细节。所提出的方法首先实现了关键特征提取，并在频域中增强了源图像。频率注意力的设计如图3所示，源图像首先通过快速傅立叶变换转换为频域。然后，选择变换后的振幅部分进行高频滤波以获得注意力掩模，并使用快速傅立叶变换将其从频域转换回图像域。注意力掩模的可视化如图2所示。可以很容易地发现，红外图像中的高频信息代表了突出部分，并代表了具有大梯度的区域，这可以代表可见图像中的纹理细节。为了获得增强的源图像，高频滤波振幅部分被添加到频域中的原始振幅中。可视化结果如图2所示。使用频率注意力操作增强了红外图像的突出部分和可见图像的纹理细节。除了融合图像与两个源图像之间的常规度量外，还提出了一种基于融合分解的新型图像融合度量方法。自监督度量标准被应用于图像融合，通过基于频率注意力的图像融合损失函数缩小分解图像与增强源图像之间的距离，以解决训练指导的挑战。

这里注意力掩码怎么做的？把提取的高频部分做了可视化？

这里的频率注意力块并没有什么可以学习的参数，实际上就是利用傅里叶变换，对幅值部分进行高通滤波，然后加回去，起到了一个强调增强的作用。

3、网络框架和损失

IR和VIS是concat到一起送入U-Net，一起提取特征。

这里的分解模块很简单，把F使用两个卷积层得到IR，F经一个卷积再减去IR就代表了VIS，分别降维到一个通道，与增强的源图像做约束。

怎么分解的？

损失约束，IRen-----IRde，VISen------VISde。

这里Lfa的计算公式有做消融，这里就是一个元素强度损失，只不过使用softmax对每个位置进行了加权。

A better fused result can obtain better decomposed images.

4、实验结果

用于训练的公共红外和可见图像数据集是多光谱语义分割数据集（MSSD）。MSSD数据集中每幅图像的尺寸为640 × 480，共包含1569对图像。训练集中的主要场景是城市街景，其中820对是在白天拍摄的场景，749对是在夜晚拍摄的场景。为了增加数据，数据集进行了随机翻转和裁剪。此外，在训练过程中，将图像裁剪为256 × 256的图像块作为输入。

就这张结果来说，红框保持的稍微有点模糊，有其他方法保持的很好。

4.1 频率注意力中高通幅值的权重的消融

高通振幅权重越高，源图像的high-value目标在融合结果中就会更突出，例如随着比例的增加，红外高亮目标的显著性趋于增加。然而，高通振幅的权重并不是越高越好，正如从蓝色框中可以看出的那样，由于比例的增加，红外高亮目标往往会过曝。

可以看到随着比例的增加，红外目标越显著，作者没有给出客观指标，不知道是不是某些也会下降。

4.2 频率注意力块的消融

从图14中可以看出，频率注意力生成了一个掩模，重点关注红外图像上的热辐射突出信息以及可见图像上的背景细节。通过频率注意力生成的增强图像具有比源图像更高的对比度，并且保留并增强了两个源图像的重要信息。可以观察到，通过具有频率注意力的提出方法生成的融合图像比没有频率注意力操作的结果在红外突出信息方面更丰富，并且在可见图像中保留了更多的纹理细节。

4.3 加了权重的强度损失的消融

图15(a)–(c)分别表示了当使用(16)–(18)作为约束时的结果。比较图15(a)和(b)的结果，显然，使用高频注意力进行融合能更好地保留红外图像中突出的目标，如红色和绿色框所示。此外，比较图15(b)和(c)，我们可以看到，在重新加权权重图后，红外目标更显著，可见图像中的纹理细节得到了更好的保留，如蓝色框所示。

4.4 融合测量Net的消融

yeager415

关注

28
点赞
踩
25

收藏

觉得还不错? 一键收藏
0
评论
【IVIF】Two-Level Consistency Metric for Infrared and Visible Image Fusion

本文的特征提取和图像重建部分的网络很简单，就使用了一个U-Net+，作者分析说IVIF任务没有GT，都是通过设计损失函数来约束融合图像和源图像之间的距离，这是一种**单层一致性度量**，即最终的融合结果接近于源图像之间的折中。作者认为源图像的高频信息没有很好保留（作者在行文里先举了几个例子来说明这一点）因此作者设计了一个分支，使用傅里叶变换，即高频注意力模块获取增强的源图像。
复制链接

扫一扫