【红外与可见光图像融合】Semantic perceptive infrared and visible image fusion Transformer

大多数方法关注到了全局信息建模和局部特征,但很少考虑到语义信息的建模,这可能导致信息保持不充分。
我们提出的SePT使用CNN提取局部特征,并通过Transformer学习长距离依赖,同时,设计了两个语义信息建模模块,学习高级语义信息。结果表明,所提出的两个语义建模模块分别将浅层特征映射为深层语义,并从不同的感受野中提取语义信息。
本文在一个新的RGB数据集M3FD上做了扩展实验,除了对比CNN,GAN-based的方法外,还对比了两个Transformer-based的方法和一个同样考虑到语义信息建模的方法SeAFusion。
本文选择的客观指标也没有选择几个特别常见的,同时对提出的几个模块做消融实验时,由于指标没有提升多少甚至有降低,所以没有加黑,但主观图是有提升的。
代码未公开。
选自Pattern Recognition。

1、Motivation

(1)基于CNN和GAN的方法具有较强的局部特征表示能力,但远程依赖学习能力较弱。这可能导致对融合图像至关重要的全局纹理的缺失。
(2)这些方法很少考虑深层语义信息,这可能导致融合过程中源图像信息保留不足。

作者说,一些图像融合研究将图像语义引入融合框架。

他们设计了一个信息量判别块来确定保留语义对象特征的权重,从而可以在特定的监督损失下很好地训练鉴别器和生成器。

但这些方法侧重于利用语义信息形成语义相关损失来指导融合过程,而很少考虑对其进行建模或其他操作。

2、网络结构

在这里插入图片描述
网络包括四个部分,局部特征提取模块,长距离建模模块,深度语义信息建模模块,宽度语义建模模块。

在特征提取 方面,IR和VIS是两个分支,分别提取不同模态的特征,作者也解释说

为了从两幅不同模态的源图像中充分提取信息,将两幅源图像作为两个独立的输入发送到网络中。

局部特征提取部分:

就是5个conv层,作者分开命名为,浅层特征提取,中层特征提取,深层特征提取。
在这里插入图片描述

长距离学习部分:

在这里插入图片描述
就是最基本的transformer块,考虑到计算效率。Transformer Encoder的层数设置为6。多头设置为4.

深度语义建模模块:

在这里插入图片描述
经过局部提取部分,提取到的浅层特征主要是颜色和边缘信息,因此我们设计深度语义建模模块为了提取高级语义特征。
在这里插入图片描述
其实也是基本的Transformer块,只不过这里叫Depth Transformer Encoder,特别的是,输入有变换。
在这里插入图片描述
两个分支都是拿第一层(浅层特征作为Q),分别和中层和深层特征的KV点乘。

宽度语义建模模块

作者说虽然很多工作使用Transformer来捕获全局信息,他们很少考虑到输入Transformer的特征的感受野。这可能造成一些关键信息的丢失,受《SDTP: Semantic-aware decoupled transformer pyramid for dense image prediction, IEEE Trans. Circuits Syst. Video Technol》启发,我们提出了Width semantic-modeling 模块。

具体来说,就是把局部特征提取的第三层也就是最后一层特征分别送入扩张卷积,扩张系数分别设置为1,2,5,然后送入Transformer blocks。
在这里插入图片描述

在这里插入图片描述
这是3各分支的意义,在这里插入图片描述

融合以上获得的特征。

首先把来自Depth semantic modeling和Width semantic modeling的输出concat,然后经过一系列卷积(组成跟局部特征提取模块一样,3个卷积)最后得到的结果和局部特征提取模块得到的输出和全局特征(即长距离建模模块的结果)concat,送入重建块,同样也是几个卷积。

3、损失

我们提出的SePT network旨在挖掘深层语义信息,促进远程依赖关系与局部特征之间的相互作用,以提高融合质量,相应的设计了以下损失。

设计的很简单,SSIM和强度损失。
在这里插入图片描述

在这里插入图片描述
对于红外图像的热信息,采用像素强度有效表达,引入强度损失对输出进行约束,以保留更多的红外目标信息。强度损失定义为:
在这里插入图片描述
这个强度损失跟其他论文使用的也有所区别,这里只用融合图像和IR图像作差,没使用到VIS图像。

4、实验结果分析

TNO,RoadScene训练
在这里插入图片描述
作为额外的测试集。该数据集涵盖了四种主要场景,包括不同的环境、光照、季节和天气,具有广泛的像素变化

客观指标
mutual information (MI), MI reflects the quantity of information that the result reserves.
structural similarity index measure (SSIM), SSIM describes the images from brightness, contrast and structure perspective.
peak signal-to-noise ratio (PSNR), evaluates the ratio of crucial information and noise, therefore, it can measure the distortion of the results.
𝑁𝑎𝑏𝑓 𝑁𝑎𝑏𝑓 can measure the quantity of noise and artifacts in an image
𝑄𝑎𝑏𝑓 𝑄𝑎𝑏𝑓 is the metric that reflects the amount of edge information retained from source images

4.1 参数分析

我们的网络主要包含一个超参,α的选择会影响融合结果,我们根据先验知识设置为1,3,5,7.
在这里插入图片描述

虽然当该值为3和5时,结果中保留了两幅源图像的信息,但值为5时,结果图像的灰度信息和部分纹理融合不佳,如天空的灰度较暗,树木的纹理边缘不清晰。此外,为了进一步选择3和5之间的准确值,我们计算了对例子图像的定量评价,结果如表1所示。可以明显看出,当融合后的结果在4个评价指标上都具有较好的性能。因此,参数的值为3
在这里插入图片描述
因为这里损失只有两项,而第二项只拿IR对象对融合结果进行限制,直观的理解,α值越大,第二项比重就越大,融合结果就越接近IR图像。

4.2 消融实验

作者这个排版有点意思

在这里插入图片描述
去掉中间的长距离建模模块:
如果没有远程依赖学习,融合结果会丢失一些纹理信息。例如,第一幅图像中的人物缺少面部纹理,第二幅图像中的人物缺少一些轮廓信息。在第三对图像中,楼梯是模糊的,建筑物的墙上有一些黑影。对于第四对图像,天空是黑暗而模糊的,树木没有明显的边界。
在这里插入图片描述

去掉depth transformer块,去掉width transformer块,把两个都去掉,分别作了消融实验。
作者说从实验结果看,我们的SePT融合了全局细节和更丰富的信息,同时保持了足够的语义信息。
但其实:
在这里插入图片描述
从主观图来看,实验结果一般,地面的纹理细节不够突出。

在这里插入图片描述
没有Width transformer块:
在这里插入图片描述
第一副图像中人物的红外显著目标语义信息保留较好,但人物的面部和服装细节模糊。这意味着所设计的宽度语义建模模块可以通过学习存在于不同感受野的语义信息,为融合结果提供更细致的纹理。

在这里插入图片描述

去掉深度语义建模模块后,网络保留全局语义信息的能力明显不足。例如,第一和第二图像对中人体目标的红外信息保存得不好,目标的亮度相对较低。因此,设计深度语义建模模块,将源图像的浅层特征映射为高层语义信息,有助于在保留全局语义的同时保留局部细节

定量评价,我们可以看到,所有的融合网络在所有指标上都有很小的差距。因此,基于定性效果和定量评估,我们可以得出结论,提出的基于变压器的模块有助于提高融合性能。
在这里插入图片描述

4.3 TNO上的客观指标,主观图这里不想贴了。

在这里插入图片描述
可以看出 SePT 在四个指标(MI、SSIM、Nabf 和 Qabf)中取得领先地位,并且在 PSNR 上与 D2WGAN 和 TSIFVS 之间的差距较小。具体来说,
最大的 MI 值表明相比其他方法,SePT 能够将大部分信息从输入中传递到结果中。
最高的 SSIM 值和竞争力强的 PSNR 值验证了,在局部和全局特征的交互以及高层语义信息的感知下,SePT 保留了相当数量的纹理内容和细节信息,并且几乎没有失真。
SePT 达到的最高的 Nabf 值表明融合结果具有最小的噪声和伪影。
最高的 Qabf 值表明 SePT 保留了源图像的大部分边缘信息。

4.4 M3FD上的结果

在这里插入图片描述
在这里插入图片描述
最高的PSNR值意味着SePT保留了大部分纹理内容和详细信息,几乎没有失真。具有竞争力的MI、SSIM、Nabf和Qabf值验证了SePT从源图像传输了相当多的信息,并且噪声更少。
在这里插入图片描述

以上对比的都是CNN-based和GAN-based,作者接下来对比了两个Transformer-based,IFT和SwinFusion
通过与IFT和SwinFusion的对比可以看出,SePT能够通过对语义信息的感知来关注场景信息和物体纹理。

在这里插入图片描述
在这里,更好的客观指标值用黑体加粗了,可能是因为在这里好的指标更多吧()

4.5 与使用语义信息的方法对比

为了证明将语义信息引入图像融合任务的贡献,我们与利用语义信息的融合方法进行了额外的比较。

在这里插入图片描述
在这里插入图片描述
第二张图来说,SeAFusion虽然人体目标很亮,但面部细节缺失,而且无法区分战壕的纹理。
直观看来,背景很接近可见光,而人脸和战壕这种小感受野的却很接近红外?

5、算法效率

在这里插入图片描述
因为使用了大量的Transformer,效率低,这是未来的解决方向。

6、总结

这项工作侧重于通过网络设计学习语义信息,但对损失函数的改进关注较少。此外,这项工作主要考虑了灰度图像的融合,这使得将成果扩展到多通道图像的融合变得困难。在接下来的工作中,我们将继续深入研究将语义信息引入融合任务的优势,通过设计有效的语义相关损失函数来约束网络训练过程。此外,我们将考虑多通道图像的固有特性,并设计具有高泛化性能的通用融合网络。

  • 27
    点赞
  • 26
    收藏
    觉得还不错? 一键收藏
  • 2
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值