【红外与可见光图像融合】CUFD和DRF的阅读笔记

yeager415

已于 2024-04-06 21:44:58 修改

阅读量387

点赞数 4

文章标签：笔记计算机视觉人工智能深度学习

于 2024-04-06 12:59:44 首次发布

本文链接：https://blog.csdn.net/learnererer/article/details/137423988

版权

CUFD文章里的一些表述：

输出了中间层融合的结果，分析了特征，有一些不重要的部分在IR和VIS中都会出现，称之为common part，有一些重要的部分在IR和VIS展现出了差异性，要么IR更明显，要么VIS更明显，称之为unique part，我们把image encoder提取的特征图，进一步使用feature encoder 分解为common part 和 unique part，然后分别应用不同的融合策略。

在这里插入图片描述

网络结构：

在这里插入图片描述
首先，分别提取了4组特征图：
把特征图concat送入feature encoder即feature fusion network(FFN)，分解得到两组common part和unique part:

对于common part：使用平均加权
在这里插入图片描述
对于unique part：使用最大值（作者解释说，特征图里的这部分会更亮，元素值更大）

最后，feature encoder-decoder部分的输出是：对于以上得到的Uk和Ck的重建，和一开始输入的残差（使用了最大值选择）

也就是红框那部分：
在这里插入图片描述
最终的融合块就是：

image part 和 feature part的示意图：
在这里插入图片描述

损失

image part：
在这里插入图片描述
逐元素的强度损失和基于梯度算子的梯度损失

feature part：
提取了4层特征，分别进行融合，但在训练阶段，只使用第一层的FFN进行训练，作者解释说：
节省训练时间和存储空间，并且FFN的思想是把特征图分解出common和unique部分，浅层特征细节更丰富。
在这里插入图片描述

这部分就是本文采用分解思想，（分解成不同的部分，损失约束一下，融合重建，损失约束。）
在feature-level上，把提取的特征图分解为common部分和unique部分，怎么分解的？使用损失约束，

第一项使得分解的可见光共同部分尽可能和VIS或者IR的特征图接近，第二项使得分解的红外共同部分尽可能和VIS或者IR的特征图接近，第三项使得这两者接近。

（unique 部分怎么约束的？没约束啊？）

中间层的结果以及分解部分的可视化：
在这里插入图片描述
最后一行是基于共同部分和独特部分重建的特征图。与原始特征图相比，特征图的重建不如图像部分那样好。因此，我们根据公式（5）定义增加了一个补充块来补偿失真的亮度信息。
就是使用的这个跳跃连接。

结果

在这里插入图片描述

DRF： Disentangled Representation for Visible and Infrared Image Fusion

我们不是根据信息表示形式（如频率、稀疏系数和显著组件）来分割源图像，而是根据信息的来源来进行分解。更具体地说，我们将源图像分解为两部分：来自场景的信息和与传感器模态相关的信息。由于与传感器模态相关的信息反映了传感器或源图像的属性，我们将这种类型的信息定义为独特的属性表示，而来自场景的信息，即场景表示，则是两种类型源图像的共同信息。

在这里插入图片描述
本文的分解是通过scene encoder提取场景信息(common part)，通过attribute encoder提取属性信息(unique part)，不同的是，这里属性编码器的输出一维向量。

考虑到场景信息直接与空间和位置相关，因此场景表示以特征图的形式呈现，如图1所示，而属性与传感器模态相关，并且不希望携带场景信息。因此，向量的形式比特征图更适合表示属性信息。

在这里插入图片描述

分解

那么这篇是怎么实现特征解耦的呢？采取了三个策略：
在这里插入图片描述
我们共享IR和VIS场景编码器最后一层的权重。通过这种方式，两个域中图像的场景特征可以嵌入到一个公共空间中。然而，共享高层次层的权重的方式不能保证场景编码器从两个不同的域中编码相同的信息。因此，第二个策略是对场景特征进行约束，使得EsX和EsY从两个域中编码相同的场景特征。为了抑制属性空间中的场景信息，我们对属性向量ax和ay的分布进行约束。因此，属性编码器不会编码与场景相关的信息。

对IR和VIS各自的场景和属性信息，首先生成器G能够重建出他们原始的图像：在这里插入图片描述
然后交叉场景和属性信息，作者说，给定不同的属性向量，G恢复的图像应该与属性向量来源的图像相似。

损失

VIS和IR提取的场景信息应该相似：
在这里插入图片描述
属性分布损失使用了一个基于KL散度的：

解释的看不懂：基于解耦表示，我们希望尽可能地将场景信息从属性空间中抑制。期望属性表示尽可能接近先验高斯分布

重建损失：

全部的：

融合

场景信息取平均：
在这里插入图片描述
属性信息：采用了一组超参控制，后续进行消融实验

当λ=0时，融合结果看起来像是属于视觉域Y的图像；而当λ=1时，结果似乎与域X中的图像类似。对于后续的各种应用目标，可以通过设置不同的λ值来调节融合结果以呈现不同的属性。因为场景特征已经被分解、融合并固定为sf作为融合结果，所以λ的不同设置对场景信息的失真影响很小。

最终融合就把这两块送入G
在这里插入图片描述

结果

其实客观指标并不是很高
在这里插入图片描述

属性向量权重的消融：
在这里插入图片描述
随着λ的增加，融合结果的属性逐渐从红外属性向可见属性靠近。热目标的显著性逐渐降低，但纹理细节逐渐丰富。

yeager415

关注

4
点赞
踩
6

收藏

觉得还不错? 一键收藏
1
评论
【红外与可见光图像融合】CUFD和DRF的阅读笔记

输出了中间层融合的结果，分析了特征，有一些不重要的部分在IR和VIS中都会出现，称之为common part，有一些重要的部分在IR和VIS展现出了差异性，要么IR更明显，要么VIS更明显，称之为unique part，我们把image encoder提取的特征图，进一步使用feature encoder 分解为common part 和 unique part，然后分别应用不同的融合策略。
复制链接

扫一扫