基于注意力机制的无监督高光谱和多光谱图像融合——论文阅读笔记

文章地址

一、文章背景

论文的意义:HR-MSI与LR-HSI融合的数据集获取困难,文章构建了无监督多注意力引导网络和无监督轻量注意力环形网络来融合MSI和HSI。

核心:通过深度学习的方法生成HR-HSI(HSI超分辨率重建)。

二、文章成果与重点

  1. 随机编码和HR-MSI为输入,反复迭代学习先验,便可获得HR-HSI。
  2. 采用多注意力模块,NL模块可以更好的保留图像的光谱细节和空间细节,协调注意力模块可以抑制冗余信息。
  3. 采用轻化注意力块
  4. 采用了无监督图像融合模型。

三、网络细节

(一)无监督多注意力引导网络

融合算法框架(与GDD相似,后文会提到):
在这里插入图片描述

1.理论

a.深度图像先验(Deep Image Prior,DIP)理论

Deep Image Prior论文中提出,神经网络本身就可以捕获低层级的图像先验知识,反复迭代学习一张图的先验知识实现图像去噪和图像超分辨率等任务。原论文提出的常规图像修复公式如下:

在这里插入图片描述
x*为网络输出,x0为网络的输入,R(x)为正则项
而采用深度卷积网络的图像修复公式如下:
在这里插入图片描述
f就是神经网络,θ为网络参数(随机初始化得到),z是最初输入网络的一个固定的随机的编码。
对于图像修复、超分辨率等工作,可以理解为神经网络先学习的是低频的信息,而噪声则是高频信息。

b.Double-DIP 算法

Double-DIP论文中提出,采用两个DIP,可以将复杂的图像分为两个内部相似性高的图层,从而使其适用于各类任务。

c.非局部注意力机制

Non-Local Network相当于transformer的self attention部分,不做赘述,是一个即插即用的模块。
文章采用NL块的原因是因为不同于其他端到端的网络,编码器的特征也会进入引导网络,
在这里插入图片描述

2.多注意力编码器网络 (MAE)

加入了非局部模块(Non-local,NL)模块和交叉空间注意力模块(Spatial Cross Attention,SCA)融合相同尺度的特征
SCA模块
其中红框内是空间注意(Spatial Attention,SA)块,虽然空间注意块能够在有效地减少对输入图像中不相关区域的关注度的同时聚焦相关区域的有效特征,但其产生结果可能包含噪声。因此,本章采用交叉空间注意块进 行图像的特征增强。
在这里插入图片描述

3.多尺度特征引导(MSFG)

a.上采样细化单元(URU)
为了避免图像边缘过于平滑,细节消失,不采用双线性插值模块
在这里插入图片描述

b.拉普拉斯引导块(LG)
采用拉普拉斯引导块可以使得在提取多尺度特征时保证输入特征与MSI特征对齐
在这里插入图片描述

(二)无监督轻量注意力环形网络

网络由协调特征融合(Coordinate Feature Fusion,CFF)网络(绿色方框内)和双注意力解码(Dual-attention Decoder,DAD)网络(红色方框)组成。
在这里插入图片描述

1.双注意力解码网络(DAD)

旨在提取多光谱图像的多尺度特征,增大信息量,为后续协调特征融合做准备
a.轻量注意力(Lightweight Attention, LA)块
采用EA文章中类似的模块,其中Mk是一个输入特征的可学习相关性参数
在这里插入图片描述
b.极化注意力(Polarize Attention,PA)块
采用Dual Attention Network中类似的结构,自适应地整合局部特征和全局依赖。该方法能够自适应地聚合长期上下文信息。

在这里插入图片描述

2.协调特征融合网络

采用类似GDD的网络,输入随机噪声生成HR-HSI
在这里插入图片描述
F0部分如下图所示,输入为随机噪声,进行初始化
在这里插入图片描述
其中协调注意力(CA)模块兼顾通道和特征对图像进行增强,可以嵌入位置信息
在这里插入图片描述
其余的CFF模块为双输入模块
在这里插入图片描述

接下来介绍一下GDD

Guided Deep Decoder: Unsupervised Image Pair Fusion

文章地址
代码地址

一、文章背景

图像融合任务采用深度学习的方法避免了显示的先验知识,但是仍需要大量的训练数据,而高光谱图像较难获取,DIP的提出网络架构本身就有归纳偏差,但是采用DIP的不确定性,限制了DIP在各种图像融合问题中实现SOTA。

二、文章成果与重点

  • 提出了一种新的无监督方法,不需要训练数据,可以适应不同的图像融合任务在一个统一的框架。
  • 提出了一个新的网络架构解决一个正则化的无监督图像融合问题。在所提出的架构中使用的注意力门引导使用来自引导图像的多尺度语义特征来生成输出图像。

三、网络细节

网络结构由如下,蓝色层代表编码器的功能。红色层代表解码器的功能。绿色层表示深度解码器网络的特征。G的语义特征用于在上采样和特征细化单元(URU和FRU)中指导深度解码器的特征。
在这里插入图片描述

要输出理想的图像X,可以被视为解决如下优化问题
在这里插入图片描述
在DIP理论中
在这里插入图片描述

因此,问题可被简化如下,在该公式中,仅一个输入图像Y和引导图像G用于优化问题;因此,不需要训练数据。通过网络结构的隐式先验对X进行正则化。不同类型的架构可以导致不同的正则化器。文章提出的架构有效地结合了多尺度的空间细节和语义特征,可以是一个强大的正则化器。
在这里插入图片描述

Guided deep decoder (GDD)

a. 上采样细化单元(URU)
在前文中提到,网络会先学习低频特征,这也就会导致在Decoder的过程中高频细节丢失。采用线性插值等方法,会使得边缘过于平滑,无法恢复精确空间结构或边界。
URU结合了一个注意力门,用于对深度解码器中的上采样和通道归一化(CN)后导出的特征进行加权。来自引导图像的特征通过1 × 1卷积、LeakyRelu、Sigmoid进行门控,生成条件权重以保持特征的空间局部性。
在这里插入图片描述
b. 特征细化单元(FRU)
同样通过Sigmoid门控,但与URU不同,FRU所要做的是语义对齐
在这里插入图片描述

四、损失函数

当融合RGB和HS图像时,损失函数通常被设计为保留HS图像的光谱信息,同时保留RGB图像的空间信息
损失函数公式如下,其中X tilde 代表代表高分辨率的高光谱图像,Y tilde 代表低分辨率的高光谱图像,G tilde 代表高分辨率的RGB图像,S是空间下采样,R是将光谱整合到R、G、B通道中的光谱响应函数。第一项代表空间下采样的X和Y之间的光谱相似性。第二项代表频谱下采样的X和G之间的空间相似性。μ是控制两项之间平衡的标量。
在这里插入图片描述

  • 31
    点赞
  • 43
    收藏
    觉得还不错? 一键收藏
  • 2
    评论
引用[1]:高光谱图像(Hyperspectral Image, HSI)包含许多个狭窄的光谱波段,即HSI的光谱维,蕴含着丰富的光谱信息,可用于区分目标区域的地物信息。凭借其特有的光谱信息,HSI广泛应用于农业、分类、环境监测等方面。[1]引用[2]:Attention mechanism主要包括channel attention mechanism和spatial attention mechanism。前者的目的是找出哪个特征图对网络的学习比较重要。然后为不同通道的特征图重新分配权重。后者的目的是识别特征图中哪些区域需要去重点关注。文章引入spectral attention分支,与channel分支和spatial分支构成一个联合的三分支attention block。[2]引用[3]:高光谱(HS)图像被广泛用于识别和表征感兴趣场景中的目标,具有高获取成本和低空间分辨率。通过高空间分辨率多光谱(MS)图像的光谱重建获得高空间分辨率HS图像(HSI)是一种廉价的方法。在这篇文章中,我们提出了一种渐进的空间-光谱联合网络(PSJN)来重建MS图像的HSI。PSJN由2-D空间特征提取模块、3-D渐进式空间-谱特征构造模块和谱后处理模块组成。[3] 问题: 高光谱注意力机制的权重是如何分配的? 回答: 高光谱图像中的注意力机制主要包括channel attention mechanism和spatial attention mechanism。其中,channel attention mechanism用于确定哪个特征图对网络的学习更重要,并为不同通道的特征图重新分配权重。而spatial attention mechanism用于识别特征图中需要重点关注的区域。此外,文章还引入了spectral attention分支,与channel分支和spatial分支构成一个联合的三分支attention block,以进一步提高注意力机制的效果。[2]

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值