NestFuse

1.摘要

本文提出了一种新的红外和可见光图像融合方法,该方法建立了基于嵌套连接的网络和空间/通道注意力模型。从多尺度的角度来看,基于嵌套连接的网络可以保存来自输入数据的大量信息。该方法包括三个关键要素:编码器、融合策略和解码器。在我们提出的融合策略中,空间注意力模型和通道注意力模型被发展,它们描述了每个空间位置和每个具有深度特征的通道的重要性。首先,将源图像输入编码器,提取多尺度深度特征。然后提出了一种新的融合策略,对每个尺度下的特征进行融合。最后,利用嵌套连接解码器重构融合图像。

2.引言

深度学习的缺点:

  • 没有下采样操作,不能提取多尺度特征,深层特征没有得到充分利用
  • 网络结构的拓扑结构需要改进以实现多尺度特征提取
  • 融合策略没有被仔细设计来融合深度特征

本文的贡献点:

  • 嵌套连接架构被应用于基于CNN的融合框架。本文提出的基于嵌套连接的框架不同于已有的基于嵌套连接的框架。它包括三个部分:编码器网络、融合策略和解码器网络。
  • 该嵌套连接结构充分利用了编码器网络提取的深度特征,保留了不同尺度特征的更多信息。
  • 针对多尺度深度特征的融合,提出了一种基于空间注意力和信道注意力模型的融合策略。
  • 与现有的融合方法相比,本文提出的融合框架在视觉评价和客观评价两方面都具有更好的性能。

3.Nest Connection Architecture

通过嵌套连接,可以抑制语义空缺的影响,保留更多的信息,从而获得更好的分割结果。
在这里插入图片描述
融合网络(见图2)包含三个主要部分:编码器(蓝色方块)、融合策略(蓝色圆圈)和解码器(其他)。解码器网络采用嵌套连接方式处理编码器提取的多尺度深度特征。
在这里插入图片描述

I 1 I_1 I1 I 2 I_2 I2表示源图像。O表示融合图像。“卷积”表示一个卷积层。“ECB”表示包含两个卷积层和一个最大池层的编码器卷积块。“DCB”表示没有pooling的解码器卷积块。

  • 首先,将两幅输入图像分别送入编码器网络,得到多尺度深度特征。对于每一尺度特征,利用我们的融合策略对得到的特征进行融合。

  • 最后,利用嵌套连接解码器网络对融合后的多尺度深度特征进行重构

4.Training Phase

训练策略类似于DenseFuse 。在训练阶段,丢弃融合策略。我们希望训练一个自动编码器网络,其中编码器能够提取多尺度深度特征,解码器根据这些特征重建输入图像。训练框架如图3所示,融合网络设置如表II所示。
在这里插入图片描述
在这里插入图片描述

  • 在图3和表II中,I和O分别是输入图像和输出图像。编码器网络由一个卷积层(“Conv”)和四个卷积块(“ECB10”、“ECB20”、“ECB30”和“ECB40”)组成。每个块包含两个卷积层和一个最大池化算子,以保证编码器网络能够提取不同尺度下的深度特征。
  • 解码器网络具有六个卷积块(“DCB 11”、“DCB 12”、“DCB 13”;“DCB 21”、“DCB 22”;“DCB 31”)和一个卷积层(“Conv”)。6个卷积块之间采用嵌套连接结构连接,避免了编码器和解码器之间的语义鸿沟。

在训练阶段,损失函数为: L t o t a l = L p i x e l + λ L s s i m L_{total}=L_{pixel}+\lambda L_{ssim} Ltotal=Lpixel+λLssim

其中 L p i x e l L_{pixel} Lpixel L s s i m L_{ssim} Lssim分别表示输入图像I和输出图像O之间的像素损失和结构相似性损失

其中 L p i x e l L_{pixel} Lpixel由下式计算: L p i x e l = ∣ ∣ O − I ∣ ∣ F 2 L_{pixel} =||O-I||^2_F Lpixel=∣∣OIF2

其中O和I分别表示输出和输入图像。||·||F是Frobenius范数。 L p i x e l L_{pixel} Lpixel计算O和I之间的距离。该损失函数将确保重建图像在像素级上更类似于输入图像。

其中SSIM loss L s s i m L_{ssim} Lssim通过 L s s i m = 1 − S S I M ( O , I ) L_{ssim}=1-SSIM(O,I) Lssim=1SSIM(O,I)

5. Fusion strategy

本文提出了一种基于两阶段注意力模型的融合策略。在我们的融合结构中,m表示多尺度深度特征的层次,m ∈{1,2,…,M},M = 4。融合策略如下图所示:
在这里插入图片描述

  • 其中 ϕ 1 m \phi_1^m ϕ1m ϕ 2 m \phi_2^m ϕ2m是由编码器分别从两个输入图像中提取的多尺度深度特征。 ϕ f m ^ \hat{\phi_f^m} ϕfm^ ϕ f m ~ \tilde{\phi_f^m} ϕfm~是分别由空间注意力模型和通道注意力模型得到的融合特征。 ϕ f m \phi_f^m ϕfm是最终融合的多尺度深度特征,其将是解码器网络的输入。
  • 空间注意模型和通道注意模型。提取的多尺度深度特征分两个阶段处理
  • 当我们从我们的注意力模型中获取到 ϕ f m ^ \hat{\phi_f^m} ϕfm^ ϕ f m ~ \tilde{\phi_f^m} ϕfm~我们可以得到 ϕ f m = ( ϕ f m ^ + ϕ f m ~ ) ∗ 0.5 \phi_f^m =(\hat{\phi_f^m}+\tilde{\phi_f^m})*0.5 ϕfm=ϕfm^+ϕfm~0.5

5.1 Spatial Attention Model

在这里插入图片描述

  • β 1 m \beta_1^m β1m β 2 m \beta_2^m β2m表示从深度特征 ϕ 1 m \phi_1^m ϕ1m ϕ 2 m \phi_2^m ϕ2m经过 l 1 − n o r m l_1-norm l1norm和soft-max操作后得到的权重图

  • 权重图可由下式得出 β k m ( x , y ) = ∣ ∣ ϕ k m ( x , y ) ∣ ∣ 1 ∑ i = 1 m ( x , y ) ∣ ∣ ϕ i m ( x , y ) ∣ ∣ 1 \beta_k^m(x,y) = \frac{||\phi_k^m(x,y)||_1}{\sum_{i=1}^m(x,y) ||\phi_i^m(x,y)||_1} βkm(x,y)=i=1m(x,y)∣∣ϕim(x,y)1∣∣ϕkm(x,y)1

    • 其中 ∣ ∣ ∗ ∣ ∣ 1 ||*||_1 ∣∣1表示 l 1 − n o r m l_1-norm l1norm,k ∈ 1,…,K,且K = 2 ,(x,y)指示多尺度深度特征( ϕ 1 m \phi_1^m ϕ1m ϕ 2 m \phi_2^m ϕ2m)和加权映射( β 1 m \beta_1^m β1m β 2 m \beta_2^m β2m)的对应位置,每个位置表示深度特征中的C维向量, ϕ k m ( x , y ) \phi_k^m(x,y) ϕkm(x,y)表示一个具有C维特征的向量
  • ϕ ^ 1 m \hat{\phi}_1^m ϕ^1m ϕ ~ 2 m \tilde{\phi}_2^m ϕ~2m表示用 β 1 m \beta_1^m β1m β 2 m \beta_2^m β2m加权的增强的深度特征,其中 ϕ ^ k m \hat{\phi}_k^m ϕ^km被计算通过 ϕ k m ( x , y ) = β k m ( x , y ) ∗ ϕ k m ( x , y ) \phi_k^m(x,y)= \beta_k^m(x,y)*\phi_k^m(x,y) ϕkm(x,y)=βkm(x,y)ϕkm(x,y)

  • 最后融合图像 ϕ f m ^ ( x , y ) \hat{\phi_f^m}(x,y) ϕfm^(x,y)是通过将这些深层特征相加得到的,即: ϕ ^ f m ( x , y ) = ∑ i = 1 k ϕ ^ i m ( x , y ) \hat{\phi}_f^m(x,y)=\sum^k_{i=1}\hat{\phi}_i^m(x,y) ϕ^fm(x,y)=i=1kϕ^im(x,y)

5.2 Channel Attention Model

在现有的基于深度学习的融合方法中,大多数融合策略只计算空间信息。然而,深层特征是三维张量。因此,在融合策略中不仅应当考虑空间维度信息,而且还应当考虑信道信息。
在这里插入图片描述

  • ϕ 1 m \phi_1^m ϕ1m ϕ 2 m \phi_2^m ϕ2m是由编码器分别从两个输入图像中提取的多尺度深度特征
  • α 1 m \alpha_1^m α1m α 2 m \alpha_2^m α2m是通过全局池化和soft-max得到的C维权重向量
  • ϕ ~ 1 m \tilde{\phi}_1^m ϕ~1m ϕ ~ 2 m \tilde{\phi}_2^m ϕ~2m表示由加权向量加权的增强的深度特征
  • ϕ ~ f m \tilde{\phi}_f^m ϕ~fm是通过基于信道关注度的融合策略计算得到的融合特征
  • α ˉ k m ( n ) = P ( ϕ k m ( n ) ) \bar{\alpha}_k^m(n) = P(\phi_k^m(n)) αˉkm(n)=P(ϕkm(n))是通过全局池化去计算的
    • 其中k ∈{1,2},n表示深度特征中通道的 对应索引 ϕ k m \phi_k^m ϕkm,并且 P ( ⋅ ) P(·) P是全局池化算子
  • 然后使用soft-max计算去获得最终的权重向量 α 1 m \alpha_1^m α1m α 2 m \alpha_2^m α2m a k m ( n ) = α ˉ k m ( n ) ∑ i = 1 k α ˉ i m ( n ) a^m_k(n)=\frac{\bar{\alpha}_k^m(n)}{\sum^k_{i=1}{\bar{\alpha}_i^m(n)}} akm(n)=i=1kαˉim(n)αˉkm(n)
  • 当我们获得最终的权重向量时,由信道注意力模型生成的融合特征可以通过以下等式来计算: ϕ ~ f m ( n ) = ∑ i = 1 k a i m ( n ) ∗ ϕ i m ( n ) \tilde{\phi}_f^m(n)=\sum^k_{i=1}a_i^m(n)*\phi_i^m(n) ϕ~fm(n)=i=1kaim(n)ϕim(n)

在通道注意力中,我们分别用三个全局池化操作

  • 平均操作,计算每个通道的平均值
  • max 操作,计算每个通道的最大值
  • nuclear-norm 操作,它是一个通道的奇异值之和

6. 结论

在这篇文章中,我们提出了一个新的图像融合架构,通过发展嵌套连接网络和空间/通道注意力模型。首先,利用编码器网络中的pooling算子提取多尺度特征,使之能够从源图像中表现出更丰富的特征。然后,利用所提出的空间/通道注意力模型在每个尺度上融合这些多尺度深度特征。这些融合的特征被馈送到基于嵌套连接的解码器网络以生成融合的图像。采用这种新的网络结构和多尺度深度特征融合策略,可以在重构过程中保留更多的显著特征,提高融合性能。实验结果和分析表明,该融合框架具有良好的融合性能。在RGBT跟踪任务上的实验结果也表明,该融合策略在其他计算机视觉任务中也能有效地提高算法的性能。

疑问:图像融合中编码器已经提取特征了,然后通过融合层进行融合,那还要解码器干啥呢?

在图像融合中,编码器的作用是将输入图像转换为特征向量,其中包含了输入图像的语义信息。接着,通过融合层将两个特征向量进行融合,得到一个融合后的特征向量,它包含了两个输入图像的语义信息。

解码器的作用是将融合后的特征向量转换回图像空间,得到融合后的图像。解码器通常包括反卷积层或上采样层,它们可以将特征向量转换为图像。在解码器中,可以通过反卷积层或上采样层进行像素级别的重构,以便于生成高质量的融合图像。

因此,编码器提取输入图像的语义信息,融合层将两个特征向量进行融合,解码器将融合后的特征向量转换回图像空间,最终生成融合后的图像。

  • 2
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值