【论文阅读】LENFusion: A Joint Low-Light Enhancement and Fusion Network for Nighttime Infrared and

LENFusion: A Joint Low-Light Enhancement and Fusion Network for Nighttime Infrared and Visible Image Fusion(2024TIM)

现有方法存在问题:

1.夜间图像融合受到能见度有限的限制,容易受到光谱污染。当图像场景曝光不均匀或整体照度较低时,融合结果很容易出现类似于图1(c)的结果。红外信息减弱,红框内的可见信息在黑暗中被遮挡。因此,需要增强夜间图像融合的可视性,以便在昏暗环境下进一步提取场景信息,使融合结果包含更多信息。常见的融合方法依赖于低光增强预处理来提取更多可见特征。然而,这种方法很难专门针对融合提供增强功能。如图1(d)所示,在清晰度、对比度和细节方面还有改进的空间。

我们提出了一个框架 LENFusion,用于循环反馈联合增强和融合。融合图像通过反馈引导可见增强,促进相互增强和融合。

2.现有的夜间图像融合方法通常使用像素强度约束,导致纹理模糊。在图 1(e) 中,DIVFusion [7](一种夜间融合方法)使用照明解缠结网络消除了照明退化并增强了特征。然而,DIVFusion通过强度损失获得了更多的红外信息,但弱纹理的红外特征在承载细节的同时掩盖了亮度较低的可见特征。它是融合和增强任务产生的局部干扰。

我们在再增强和融合网络(RFN)中使用双注意力融合策略,从通道和空间注意力中过滤掉不必要的信息和二次增强。

3.颜色分量通常受到距离限制,由于夜间颜色信息有限,这使得最佳解决方案具有挑战性。早期的图像融合主要集中于灰度图像。颜色失真仍然是现代图像融合中一个值得研究的问题,特别是对于自动驾驶道路检测中的交通标志颜色等关键信息。现有的融合方法将可见图像分解到YCbCr域并在Y通道中融合,将原始颜色分量分配给融合结果。在处理缺乏足够颜色信息的暗可见图像时,这些融合方法的缺点很明显。在图1(e)中,像素强度增强,但局部区域呈现灰色。

受平衡概念的启发,我们提出了 RGB 通道的无参考颜色损失,以克服暗可见图像的限制。

本文贡献

1)我们通过反馈循环框架实现图像融合和弱光增强之间的双向引导,以利用全面的信息增强夜间融合结果。

2)为了克服增强和融合带来的局部干扰,我们在RFN中集成了特征增强、滤波和融合。它将增强和融合结合起来以提高融合性能。

3)我们提出了一种新颖的无参考颜色损失来克服从暗可见原始图像中保留颜色分量的瓶颈。

4)与现有的最先进(SOTA)融合方法相比,我们融合了夜间红外和可见光图像,以实现全面、高质量的场景表示。

研究方法

整体框架

Ivis 和 Iir 是暗可见光和红外图像。 I en vis 是初始增强后的可见图像。随后,我们在融合过程中实现重新增强和融合,得到融合图像I f 。如图2所示,整个过程可以分为三个阶段。

首先,亮度调整网络 (LAN) 从 RGB 通道自适应地增强可见图像亮度,从而在 I en vis 中生成平衡的色度分布。这被称为可见图像的初始增强。

其次,RFN 网络使用 AE 从红外和可见光图像中提取特征。双通道注意力融合模块(DAFM)再次融合特征和增强,促进增强和融合之间的耦合。

最后,亮度反馈网络 (LFN) 评估来自 RFN 的 I f 是否是最佳亮度。它计算融合图像在白天和夜间的概率分布,并构造亮度反馈损失函数Llumi。这限制了 RFN 确保融合引导增强。

亮度调节网络

黑暗隐藏了暗可见图像的背景信息,阻碍了详细可见图像特征的提取,并影响夜间红外和可见图像融合。因此,LAN均衡地增强了每个通道的像素强度。它以Ivis为输入,从自适应权重获取模块(AWAM)获取自适应权重特征图φm vis。

然后, φm vis 被分成八个权重特征图: φm1 vis , φm2 vis ,… , φm8 vis 基于通道数。权重图与 Ivis 迭代相乘,以实现自适应亮度调整。为了在黑暗中恢复信息,需要使用精心设计的乘法器来实现更大的亮度变化。 LAN 输出色度平衡的增强可见图像 I en vis。

关于Ivis的大小,H和W分别是高度和宽度,C是通道数(对于灰度图像,C = 1)。受源图像乘法权重图[14]的启发,AWAM使用变分U-Net结构来提取自适应亮度调整权重特征图φm vis。具体来说,AWAM 学习函数 f map vis 来提取 φm vis。这个过程可以表示为 φm vis = f map vis (Ivis)。求加权特征图的整个实现过程如图3所示,可以表示为:

其中 conv(·) 是卷积运算,内核设置为 3,填充和步长设置为 1。 concat(·) 按通道合并结果。最终,我们得到 φm vis = φ7 vis。然后, φm vis 按通道和迭代进行分割。根据实验经验,将 φm vis 分为八个加权特征图和八次迭代。 φm vis 的 α th 定义如下:

其中 split(·) 按通道维度分割图像。我们构造 f en vis(·) 来表示迭代乘法的乘数,它应该是单调且可微的。我们这样做是为了确保保留相邻像素之间的对比度并确保正确的梯度反向传播。为了避免增强期间溢出截断,我们将输入图像规范化到范围 [0, 1]。为了尽可能增强较暗位置的可见图像,LAN 中的迭代函数 f en vis(·) 的极点为 0.382。它允许对强度值较低的像素点进行更大的调整。迭代过程如下:

其中 I 0 vis = Ivis。 In vis 和 f en vis(n) 分别是第 n 次迭代时的可见图像和迭代函数。 φm,n vis 是第 n 次迭代时的加权图,其中 φm,α vis = φm,n vis 。 e 是欧拉数。

损失函数

在强度增强过程中保持图像边缘信息至关重要。为了减少噪声并确保相邻图像块之间的连续性,我们引入了平滑度损失 LTV。全变分正则化[33]减少了图像噪声并促进像素之间的梯度变化更平滑,从而增强了空间平滑度。输入图像 I 的平滑度损失定义为:

为了保持增强图像和原始图像中相邻像素之间的空间一致性[34],我们引入了空间一致性损失Lspatial。它的定义如下:

其中 τ (·) 执行平均池化。 K是平均池化的窗口大小,K=4。(i)表示以i为中心的相邻区域,包括上、下、左、右。

很难通过增强图像和原始图像之间的差异来测量颜色变化。受到反映离散程度的统计方差的启发,我们设计了一种无参考颜色损失Lcolor,它可以避免颜色失真。值得注意的是,我们使用 L2 范数和平均运算来抑制 RGB 通道之一的值中异常值的影响。 Lcolor定义如下:

为了防止某些区域过度曝光,我们设置阈值E来限制大小为M×M的池化窗口内的平均亮度。曝光损失Lexpose定义如下:

其中M设置为8。由于RFN中也有重新增强,因此我们将阈值ε设置为0.5。

LAN损失包括TV损失、空间一致性损失、色彩损失和曝光损失,可以表示为:

网络架构

如图3所示,AWAM使用七层变分U-Net来生成权重图。与典型的U-Net结构[35]不同,AWAM中没有下采样,这避免了详细信息的丢失。 AWAM 有七个卷积层,具有相同的 3 × 3 内核。使用整流线性单元(ReLU)作为激活函数来获取正值,除了最后一层使用双曲正切(Tanh)。 Tanh 将权重图范围限制为 (−1, 1) 以加快收敛速度​​。尽管 Tanh 对 (0, 1) 范围内的变化很敏感,但仍会引入负值。负值表示较暗的区域,而正值表示相反。因此,当取值范围小于0时,需要使用(0, 1)范围内的函数作为(4)中的迭代乘子。

再增强和融合网络

RFN 融合并重新增强特征图,以生成照明良好的融合图像。我从 LAN 看到的增强图像是初始增强。与其他优先考虑信息保存的融合方法不同,我们利用增强和融合之间的相似性以及注意机制来增强特征图中的信息。弱背景信息也被过滤掉。非目标热信息,例如 LLVIP 数据集中的路面热信息 [36],被过滤掉。正如引言部分所提到的,在融合图像中保留暗可见图像的更多详细信息是有帮助的。

如图 4 所示,I en vis 和 Iir 输入到编码器中,产生特征图 φen vi,y 和 φir。编码器设计有助于 LENFusion 实现清晰度。结合密集连接和Sobel算子来提取边缘信息并确保其在融合前包含足够的高频信息。然后,我们使用 φen vi,y 和 φir 作为 DAFM 的输入,DAFM 由通道和空间注意力组成。最后,增强的特征被添加并馈送到解码器以输出融合图像 I f。

输入 I en vis 和 Iir 转换为 YCbCr 域。然后,对亮度信息(Y通道)进行后续操作。受对比度限制自适应直方图均衡[37]的启发,我们使用自适应直方图均衡函数clahe(·)来增强对比度。该方法将多余的概率均匀地分配给其他像素,避免最大亮度突然增加。因此,它提高了局部对比度,减少了噪声,并保留了更多细节。程序如下:

其中 φir 和 φvi 分别是红外和可见光图像的特征图。 E代表编码器。

DAFM 计算特征融合的权重,并使用由注意力机制生成的该权重来进一步增强红外和可见光特征。通道和空间注意力融合在整合来自不同通道的信息并关注信息丰富的区域方面发挥着独特的作用。融合特征 φ f 定义如下:

我们使用全局最大池化(GMP)和最大操作 max(·) 来提取 DAFM 中的权重向量。这一选择是出于两个因素。首先,对于模型设计,编码器使用密集连接和Sobel算子作为resblock来提取边缘信息,使得提取的特征包含丰富的高频信息。它有助于避免由于平均池化而导致的局部信息丢失。其次,为了过滤弱背景信息并保留高频信息,我们结合了最大和软最大操作来进行同步增强和过滤,以减少局部干扰。由于 φ1 = φir 和 φ2 = φvi,ˆ φm i 和 ̃ φm i 分别表示通道注意力的 GMP 和空间注意力的 max(·) 后的特征向量。双注意力融合的过程可以定义为:

获得融合特征 φ f 后,我们通过解码器重建融合图像的 Y 通道。蓝色和红色浓度偏移(Cb 和 Cr)源自初始增强图像 I en vis。解码器过程可以定义为:

损失函数

为了指导 DAFM 中重新增强的融合特征,我们引入了结构损失 Lssim 以防止与源图像的偏差。 Lssim 通过使用亮度、对比度和结构因素对失真进行建模来保留结构相似性[38]。它被定义为

除了上述损失之外,我们还应用梯度损失 Lgrad 来保留源图像的强度变化分布和纹理信息。它被定义为:

为了鼓励重要信息的整合,我们在RFN中构建了损失LRFN,包括结构损失、梯度损失和颜色损失。损失LRFN定义为:

网络架构

RFN框架如图4所示,是一个AE。编码器从具有 256 个通道的每种模态中提取特征图。 Resblock 旨在将残差网络和密集连接结合起来。它提取特征并整合梯度信息以保留纹理。 1 × 1 卷积层用于解决维度差异。所有卷积层的步长和填充都设置为 1。

亮度反馈网络

LFN 计算输入图像是白天或夜晚的概率,并使用这些概率来计算亮度反馈损失。这有助于确定融合图像是否正确曝光,从而允许融合图像的亮度信息指导图像增强。

损失函数

为了保证预测结果准确,LFN 有效输出两类情况的概率至关重要。受 PIAFusion [39] 的启发,我们使用常用的交叉熵损失进行二元分类。这种损失衡量了预测结果与实际结果之间的差异[40],是优化模型参数的重要指标。它的定义如下:

其中 y 是 one-hot 标签,指示输入图像是白天还是夜晚。 ˆ y = [ pd , pn] 表示预测概率,定义为 0 到 1。它提供有关融合图像曝光的反馈。亮度反馈损失如下:

最终,亮度反馈损失参与到具有可调节权重的 LAN 的训练中。公共损失用于训练 LAN,定义为:

网络架构

如图5所示,融合图像I f 输入到LFN,输出是I f 的概率[ pd , pn]。 LRN 使用三个不同大小的卷积核进行卷积来提取不同分辨率下的亮度特征。随后,使用3×3卷积层来压缩空间信息。最后,使用全局平均池化(GAP)和全连接(FC)层来计算亮度概率。应用leaky ReLU (LReLU)引入非线性并提高预测精度。此外,ReLU 过滤掉负值并确保预测概率保持在 0-1 的范围内。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值