基于注意力机制的无监督高光谱和多光谱图像融合——论文阅读笔记

文章地址

一、文章背景

论文的意义:HR-MSI与LR-HSI融合的数据集获取困难,文章构建了无监督多注意力引导网络和无监督轻量注意力环形网络来融合MSI和HSI。

核心:通过深度学习的方法生成HR-HSI(HSI超分辨率重建)。

二、文章成果与重点

  1. 随机编码和HR-MSI为输入,反复迭代学习先验,便可获得HR-HSI。
  2. 采用多注意力模块,NL模块可以更好的保留图像的光谱细节和空间细节,协调注意力模块可以抑制冗余信息。
  3. 采用轻化注意力块
  4. 采用了无监督图像融合模型。

三、网络细节

(一)无监督多注意力引导网络

融合算法框架(与GDD相似,后文会提到):
在这里插入图片描述

1.理论

a.深度图像先验(Deep Image Prior,DIP)理论

Deep Image Prior论文中提出,神经网络本身就可以捕获低层级的图像先验知识,反复迭代学习一张图的先验知识实现图像去噪和图像超分辨率等任务。原论文提出的常规图像修复公式如下:

在这里插入图片描述
x*为网络输出,x0为网络的输入,R(x)为正则项
而采用深度卷积网络的图像修复公式如下:
在这里插入图片描述
f就是神经网络,θ为网络参数(随机初始化得到),z是最初输入网络的一个固定的随机的编码。
对于图像修复、超分辨率等工作,可以理解为神经网络先学习的是低频的信息,而噪声则是高频信息。

b.Double-DIP 算法

Double-DIP论文中提出,采用两个DIP,可以将复杂的图像分为两个内部相似性高的图层,从而使其适用于各类任务。

c.非局部注意力机制

Non-Local Network相当于transformer的self attention部分,不做赘述,是一个即插即用的模块。
文章采用NL块的原因是因为不同于其他端到端的网络,编码器的特征也会进入引导网络,
在这里插入图片描述

2.多注意力编码器网络 (MAE)

加入了非局部模块(Non-local,NL)模块和交叉空间注意力模块(Spatial Cross Attention,SCA)融合相同尺度的特征
SCA模块
其中红框内是空间注意(Spatial Attention,SA)块,虽然空间注意块能够在有效地减少对输入图像中不相关区域的关注度的同时聚焦相关区域的有效特征,但其产生结果可能包含噪声。因此,本章采用交叉空间注意块进 行图像的特征增强。
在这里插入图片描述

3.多尺度特征引导(MSFG)

a.上采样细化单元(URU)
为了避免图像边缘过于平滑,细节消失,不采用双线性插值模块
在这里插入图片描述

b.拉普拉斯引导块(LG)
采用拉普拉斯引导块可以使得在提取多尺度特征时保证输入特征与MSI特征对齐
在这里插入图片描述

(二)无监督轻量注意力环形网络

网络由协调特征融合(Coordinate Feature Fusion,CFF)网络(绿色方框内)和双注意力解码(Dual-attention Decoder,DAD)网络(红色方框)组成。
在这里插入图片描述

1.双注意力解码网络(DAD)

旨在提取多光谱图像的多尺度特征,增大信息量,为后续协调特征融合做准备
a.轻量注意力(Lightweight Attention, LA)块
采用EA文章中类似的模块,其中Mk是一个输入特征的可学习相关性参数
在这里插入图片描述
b.极化注意力(Polarize Attention,PA)块
采用Dual Attention Network中类似的结构,自适应地整合局部特征和全局依赖。该方法能够自适应地聚合长期上下文信息。

在这里插入图片描述

2.协调特征融合网络

采用类似GDD的网络,输入随机噪声生成HR-HSI
在这里插入图片描述
F0部分如下图所示,输入为随机噪声,进行初始化
在这里插入图片描述
其中协调注意力(CA)模块兼顾通道和特征对图像进行增强,可以嵌入位置信息
在这里插入图片描述
其余的CFF模块为双输入模块
在这里插入图片描述

接下来介绍一下GDD

Guided Deep Decoder: Unsupervised Image Pair Fusion

文章地址
代码地址

一、文章背景

图像融合任务采用深度学习的方法避免了显示的先验知识,但是仍需要大量的训练数据,而高光谱图像较难获取,DIP的提出网络架构本身就有归纳偏差,但是采用DIP的不确定性,限制了DIP在各种图像融合问题中实现SOTA。

二、文章成果与重点

  • 提出了一种新的无监督方法,不需要训练数据,可以适应不同的图像融合任务在一个统一的框架。
  • 提出了一个新的网络架构解决一个正则化的无监督图像融合问题。在所提出的架构中使用的注意力门引导使用来自引导图像的多尺度语义特征来生成输出图像。

三、网络细节

网络结构由如下,蓝色层代表编码器的功能。红色层代表解码器的功能。绿色层表示深度解码器网络的特征。G的语义特征用于在上采样和特征细化单元(URU和FRU)中指导深度解码器的特征。
在这里插入图片描述

要输出理想的图像X,可以被视为解决如下优化问题
在这里插入图片描述
在DIP理论中
在这里插入图片描述

因此,问题可被简化如下,在该公式中,仅一个输入图像Y和引导图像G用于优化问题;因此,不需要训练数据。通过网络结构的隐式先验对X进行正则化。不同类型的架构可以导致不同的正则化器。文章提出的架构有效地结合了多尺度的空间细节和语义特征,可以是一个强大的正则化器。
在这里插入图片描述

Guided deep decoder (GDD)

a. 上采样细化单元(URU)
在前文中提到,网络会先学习低频特征,这也就会导致在Decoder的过程中高频细节丢失。采用线性插值等方法,会使得边缘过于平滑,无法恢复精确空间结构或边界。
URU结合了一个注意力门,用于对深度解码器中的上采样和通道归一化(CN)后导出的特征进行加权。来自引导图像的特征通过1 × 1卷积、LeakyRelu、Sigmoid进行门控,生成条件权重以保持特征的空间局部性。
在这里插入图片描述
b. 特征细化单元(FRU)
同样通过Sigmoid门控,但与URU不同,FRU所要做的是语义对齐
在这里插入图片描述

四、损失函数

当融合RGB和HS图像时,损失函数通常被设计为保留HS图像的光谱信息,同时保留RGB图像的空间信息
损失函数公式如下,其中X tilde 代表代表高分辨率的高光谱图像,Y tilde 代表低分辨率的高光谱图像,G tilde 代表高分辨率的RGB图像,S是空间下采样,R是将光谱整合到R、G、B通道中的光谱响应函数。第一项代表空间下采样的X和Y之间的光谱相似性。第二项代表频谱下采样的X和G之间的空间相似性。μ是控制两项之间平衡的标量。
在这里插入图片描述

### 图像融合中的损失函数类型及其实现 图像融合是一种将来自不同模态的图像信息结合起来的技术,其目的是生成一幅综合性的高质量图像。为了达到这一目标,在训练过程中通常会引入特定的损失函数来优化模型性能。 #### 1. 基于 GAN 的图像融合损失函数 一种常见的方法是利用生成式对抗网络 (GAN) 来完成图像融合任务。在这种框架下,设计了一个专门针对红外可见光图像融合的损失函数[^1]。该损失函数不仅考虑了输入图像的内容一致性,还通过对抗机制增强了生成图像的真实感。具体来说: - **主损失项**:衡量融合图像与原始红外或可见光图像之间的差异。 - **辅助损失项**:可能包括梯度损失或其他特征匹配指标,以保留更多细节信息。 这种方案首次尝试使用遗传算法解决图像融合问题,进一步验证了 GAN 方法在此类应用中的潜力。 #### 2. 非刚性配准中的损失函数结构 对于涉及图像配准的应用场景,尤其是当需要处理非线性变换时,常用的无监督学习策略依赖于复合形式的损失函数[^2]。这类损失一般由两个主要组成部分构成: - **相似性测度**:评估参考图像与经过形变调整的目标图像间的接近程度。典型的选择有均方误差(MSE),互信息(MI)等。 - **空间正则化约束**:控制预测得到的变形场平滑特性,防止过度拟合噪声数据。 例如 VoxelMorph 模型采用了上述设计理念,并提供了相应的 PyTorch 实现代码。以下是简化版 MSE 加权正则化的 Python 表达方式: ```python import torch.nn as nn class RegistrationLoss(nn.Module): def __init__(self, alpha=0.5): super(RegistrationLoss, self).__init__() self.alpha = alpha def forward(self, fixed_image, warped_moving_image, deformation_field): similarity_loss = ((fixed_image - warped_moving_image)**2).mean() regularization_loss = ((deformation_field.grad())**2).mean() total_loss = self.alpha * similarity_loss + (1-self.alpha)*regularization_loss return total_loss ``` #### 3. 跨模态图像融合的具体损失定义 在某些跨模态(如红外与 RGB 彩色图片)融合案例里,研究者提出了更加精细的设计思路[^3]。他们分别计算以下几个方面的贡献并加总形成最终目标函数: - **红外强度保持损失**:确保融合结果能够忠实反映原红外信号强弱分布情况; - **梯度增强损失**:捕捉额外存在的边缘轮廓线索; - **视觉外观重构偏差惩罚**:促使合成产物尽可能贴近自然色彩表现规律。 这些组件共同作用使得输出既能清晰呈现热源位置又能具备良好的观感效果。 --- ###
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值