NestFuse

最新推荐文章于 2024-09-11 15:45:55 发布

保持客气哈

最新推荐文章于 2024-09-11 15:45:55 发布

阅读量590

点赞数 2

分类专栏： ImageFusion 文章标签：计算机视觉深度学习人工智能

本文链接：https://blog.csdn.net/m0_47005029/article/details/129986071

版权

ImageFusion 专栏收录该内容

28 篇文章 48 订阅

订阅专栏

本文提出了一种新的红外和可见光图像融合方法，利用嵌套连接的网络结构以及结合空间和通道注意力模型的融合策略。这种方法通过编码器提取多尺度特征，然后在融合层进行特征融合，最后由解码器重构融合图像。训练过程采用特定的损失函数，包括像素损失和结构相似性损失。实验表明，该方法在视觉效果和客观评价上均优于现有融合技术。

摘要由CSDN通过智能技术生成

1.摘要

本文提出了一种新的红外和可见光图像融合方法，该方法建立了基于嵌套连接的网络和空间/通道注意力模型。从多尺度的角度来看，基于嵌套连接的网络可以保存来自输入数据的大量信息。该方法包括三个关键要素：编码器、融合策略和解码器。在我们提出的融合策略中，空间注意力模型和通道注意力模型被发展，它们描述了每个空间位置和每个具有深度特征的通道的重要性。首先，将源图像输入编码器，提取多尺度深度特征。然后提出了一种新的融合策略，对每个尺度下的特征进行融合。最后，利用嵌套连接解码器重构融合图像。

2.引言

深度学习的缺点：

没有下采样操作，不能提取多尺度特征，深层特征没有得到充分利用
网络结构的拓扑结构需要改进以实现多尺度特征提取
融合策略没有被仔细设计来融合深度特征

本文的贡献点：

嵌套连接架构被应用于基于CNN的融合框架。本文提出的基于嵌套连接的框架不同于已有的基于嵌套连接的框架。它包括三个部分：编码器网络、融合策略和解码器网络。
该嵌套连接结构充分利用了编码器网络提取的深度特征，保留了不同尺度特征的更多信息。
针对多尺度深度特征的融合，提出了一种基于空间注意力和信道注意力模型的融合策略。
与现有的融合方法相比，本文提出的融合框架在视觉评价和客观评价两方面都具有更好的性能。

3.Nest Connection Architecture

通过嵌套连接，可以抑制语义空缺的影响，保留更多的信息，从而获得更好的分割结果。
在这里插入图片描述
融合网络（见图2）包含三个主要部分：编码器（蓝色方块）、融合策略（蓝色圆圈）和解码器（其他）。解码器网络采用嵌套连接方式处理编码器提取的多尺度深度特征。

$I_1$ 和 $I_2$ 表示源图像。O表示融合图像。“卷积”表示一个卷积层。“ECB”表示包含两个卷积层和一个最大池层的编码器卷积块。“DCB”表示没有pooling的解码器卷积块。

首先，将两幅输入图像分别送入编码器网络，得到多尺度深度特征。对于每一尺度特征，利用我们的融合策略对得到的特征进行融合。
最后，利用嵌套连接解码器网络对融合后的多尺度深度特征进行重构

4.Training Phase

训练策略类似于DenseFuse 。在训练阶段，丢弃融合策略。我们希望训练一个自动编码器网络，其中编码器能够提取多尺度深度特征，解码器根据这些特征重建输入图像。训练框架如图3所示，融合网络设置如表II所示。
在这里插入图片描述

在图3和表II中，I和O分别是输入图像和输出图像。编码器网络由一个卷积层（“Conv”）和四个卷积块（“ECB10”、“ECB20”、“ECB30”和“ECB40”）组成。每个块包含两个卷积层和一个最大池化算子，以保证编码器网络能够提取不同尺度下的深度特征。
解码器网络具有六个卷积块（“DCB 11”、“DCB 12”、“DCB 13”;“DCB 21”、“DCB 22”;“DCB 31”）和一个卷积层（“Conv”）。6个卷积块之间采用嵌套连接结构连接，避免了编码器和解码器之间的语义鸿沟。

在训练阶段，损失函数为： $L_{total}=L_{pixel}+\lambda L_{ssim}$

其中 $L_{pixel}$ 和 $L_{ssim}$ 分别表示输入图像I和输出图像O之间的像素损失和结构相似性损失

其中 $L_{pixel}$ 由下式计算： $L_{pixel} =||O-I||^2_F$

其中O和I分别表示输出和输入图像。||·||F是Frobenius范数。 $L_{pixel}$ 计算O和I之间的距离。该损失函数将确保重建图像在像素级上更类似于输入图像。

其中SSIM loss $L_{ssim}$ 通过 $L_{ssim}=1-SSIM(O,I)$

5. Fusion strategy

本文提出了一种基于两阶段注意力模型的融合策略。在我们的融合结构中，m表示多尺度深度特征的层次，m ∈{1，2，…，M}，M = 4。融合策略如下图所示：
在这里插入图片描述

其中 $\phi_1^m$ 和 $\phi_2^m$ 是由编码器分别从两个输入图像中提取的多尺度深度特征。 $\hat{\phi_f^m}$ 和 $\tilde{\phi_f^m}$ 是分别由空间注意力模型和通道注意力模型得到的融合特征。 $\phi_f^m$ 是最终融合的多尺度深度特征，其将是解码器网络的输入。
空间注意模型和通道注意模型。提取的多尺度深度特征分两个阶段处理
当我们从我们的注意力模型中获取到 $\hat{\phi_f^m}$ 和 $\tilde{\phi_f^m}$ 我们可以得到 $\phi_f^m =（\hat{\phi_f^m}+\tilde{\phi_f^m}）*0.5$

5.1 Spatial Attention Model

在这里插入图片描述

$\beta_1^m$ 和 $\beta_2^m$ 表示从深度特征 $\phi_1^m$ 和 $\phi_2^m$ 经过 $l_1-norm$ 和soft-max操作后得到的权重图
权重图可由下式得出 $\beta_k^m(x,y) = \frac{||\phi_k^m(x,y)||_1}{\sum_{i=1}^m(x,y) ||\phi_i^m(x,y)||_1}$
- 其中 $_1$ 表示 $l_1-norm$ ，k ∈ 1，…，K，且K = 2 ,(x,y)指示多尺度深度特征（ $\phi_1^m$ 和 $\phi_2^m$ ）和加权映射（ $\beta_1^m$ 和 $\beta_2^m$ ）的对应位置，每个位置表示深度特征中的C维向量， $\phi_k^m(x,y)$ 表示一个具有C维特征的向量
$\hat{\phi}_1^m$ 和 $\tilde{\phi}_2^m$ 表示用 $\beta_1^m$ 和 $\beta_2^m$ 加权的增强的深度特征，其中 $\hat{\phi}_k^m$ 被计算通过 $\phi_k^m(x,y)= \beta_k^m(x,y)*\phi_k^m(x,y)$
最后融合图像 $\hat{\phi_f^m}(x,y)$ 是通过将这些深层特征相加得到的，即： $\hat{\phi}_f^m(x,y)=\sum^k_{i=1}\hat{\phi}_i^m(x,y)$

5.2 Channel Attention Model

在现有的基于深度学习的融合方法中，大多数融合策略只计算空间信息。然而，深层特征是三维张量。因此，在融合策略中不仅应当考虑空间维度信息，而且还应当考虑信道信息。
在这里插入图片描述

$\phi_1^m$ 和 $\phi_2^m$ 是由编码器分别从两个输入图像中提取的多尺度深度特征
$\alpha_1^m$ 和 $\alpha_2^m$ 是通过全局池化和soft-max得到的C维权重向量
$\tilde{\phi}_1^m$ 和 $\tilde{\phi}_2^m$ 表示由加权向量加权的增强的深度特征
$\tilde{\phi}_f^m$ 是通过基于信道关注度的融合策略计算得到的融合特征
$\bar{\alpha}_k^m(n) = P(\phi_k^m(n))$ 是通过全局池化去计算的
- 其中k ∈{1，2}，n表示深度特征中通道的对应索引 $\phi_k^m$ ，并且 $P （ \cdot ）$ 是全局池化算子
然后使用soft-max计算去获得最终的权重向量 $\alpha_1^m$ 和 $\alpha_2^m$ ， $a^m_k(n)=\frac{\bar{\alpha}_k^m(n)}{\sum^k_{i=1}{\bar{\alpha}_i^m(n)}}$
当我们获得最终的权重向量时，由信道注意力模型生成的融合特征可以通过以下等式来计算： $\tilde{\phi}_f^m(n)=\sum^k_{i=1}a_i^m(n)*\phi_i^m(n)$

在通道注意力中，我们分别用三个全局池化操作

平均操作，计算每个通道的平均值
max 操作，计算每个通道的最大值
nuclear-norm 操作，它是一个通道的奇异值之和

6. 结论

在这篇文章中，我们提出了一个新的图像融合架构，通过发展嵌套连接网络和空间/通道注意力模型。首先，利用编码器网络中的pooling算子提取多尺度特征，使之能够从源图像中表现出更丰富的特征。然后，利用所提出的空间/通道注意力模型在每个尺度上融合这些多尺度深度特征。这些融合的特征被馈送到基于嵌套连接的解码器网络以生成融合的图像。采用这种新的网络结构和多尺度深度特征融合策略，可以在重构过程中保留更多的显著特征，提高融合性能。实验结果和分析表明，该融合框架具有良好的融合性能。在RGBT跟踪任务上的实验结果也表明，该融合策略在其他计算机视觉任务中也能有效地提高算法的性能。