论文笔记35:3DADNet: Hyperspectral Image Denoising Using a 3-D Attention Denoising Network

引言

BM3D、WNNM等band-wise去噪方法忽略了光谱信息,还可能在HSIs中引入伪影和光谱失真。

基于空间域的方法:LRMR、SSTV-LRTF等

基于变换域的方法:HSSNR等

基于深度学习方法:HSID-CNN、SSGN,大多数现有的工作使用级联卷积块或手工预处理进行并行特征提取,这可能导致嵌入在HSIs中的固有空间和光谱相关性被忽略。HSI-DeNet,HSI去噪是一个相对低级的任务,需要更多的像素级(pixel-level)特征,这意味着深度网络可能不适合该任务。HSID-CNN中,虽然普通的大的二维卷积核可以扩大感受野,但这也会导致计算成本的增加。

3-D-ADNet信息提取分为空间分支和空间光谱分支,分别采用二维卷积和三维空洞卷积。空洞卷积可以有效地扩大感受野,减少计算量。在分支合并之前,自注意力机制被应用于空间域和光谱域,这使得局部特征能够自适应地和动态地与其全局相关性相结合。双注意模块可以增强特征表示能力。

  1. 自注意力机制可以使用输入特征本身来表达该特征对结果的重要性,从而产生性能改进。对于空间域,注意力模块可以在特征映射上形成相互依赖关系。对于光谱域,注意力模块可以很好地模拟光谱相关。
  2. 轻量级策略用于大规模特征和多尺度结构提取。

相关工作

3-D卷积:3DADCNN,但网络以整个HSI为输入,对所有特征提取块使用三维卷积,这种方法没有考虑HSI的空间域和光谱域之间的差异。

自注意力机制:我们的方法利用注意力机制来捕捉空间和光谱域的全局相关性。

Dual attention network for scene segmentation(CVPR2019)

方法

模型: Y = X + N Y=X+N Y=X+N,预测图像 X ^ = Y − N ^ \hat{X}=Y-\hat{N} X^=YN^,损失函数为 L ( Θ ) = 1 2 N ∑ i = 1 N ∥ F ( Y i , Y i k , Θ ) − N i ∥ 2 \mathcal{L}(\Theta)=\frac{1}{2 N} \sum_{i=1}^{N}\left\|\mathcal{F}\left(\mathbf{Y}_{i}, \mathbf{Y}_{i}^{k}, \Theta\right)-\mathbf{N}_{i}\right\|^{2} L(Θ)=2N1i=1NF(Yi,Yik,Θ)Ni2

在这里插入图片描述

Spatial-Spectral Information Extraction

空间和光谱信息提取都是通过叠加4个卷积块来实现的;每个块由卷积、BN和LeakyReLU单元组成。对于空间处理分支,我们使用2D卷积来捕捉相邻像素之间的局部相关性。我们使用3×3的核,并将每一级的扩张率设置为[1, 1, 3, 5],卷积块的输出通道分别为[k, 32, 64, 64](k应该放最后?),其中k表示相邻波段的数量。空间处理分支的输出大小为k×H×W,与相邻波段的输入相同,为空间-光谱信息融合做准备。

3D卷积输出体积的大小由输入特征的大小和卷积核的大小自动确定。3D卷积将输出与核数量相同的立方体,我们将3D核的大小设置为5×3×3,而扩张率为[1, 1, 3, 5]。连续块中每个3D卷积的输出体积数为[4, 8, 8, 1],输出大小为k×H×W的立方体作为光谱特征表示。

Spatial-Spectral Feature Fusion(参考CVPR)

位置注意力模块:引入位置注意力模块来捕捉特征映射上不同位置之间的全局关系。空间特征 F s p a t ∈ R C × H × W F_{spat}∈\mathbb{R}^{C×H×W} FspatRC×H×W首先被馈送到不同的卷积层,随后是BN和LeakyReLU层,其生成三个特征映射 F 1 , F 2 , F 3 F_1,F_2,F_3 F1,F2,F3 { F 1 , F 2 , F 3 } ∈ R C × H × W \{ F_1,F_2,F_3\}∈\mathbb{R}^{C×H×W} {F1,F2,F3}RC×H×W,C表示特征的通道数。然后新的特征都被重新整形(reshape)为 R C × N \mathbb{R}^{C×N} RC×N,其中N为特征映射中的像素数。为了获得空间注意力映射 A s p a t A_{spat} Aspat,我们将 F 1 F_1 F1的转置与 F 2 F_2 F2相乘,并将结果传递给Softmax层。矩阵乘法计算任意两个像素值的乘积(大小不一样,应该不是element-wise),而Softmax函数对每个位置的所有特征值进行归一化。
在这里插入图片描述
因此,注意力映射 A s p a t ∈ R N × N A_{spat}∈\mathbb{R}^{N×N} AspatRN×N上的 a i j a_{ij} aij代表了第 j j j位置对原始特征映射上第 i i i位置的加权(weighted)影响。随后,我们通过实现空间特征 F 3 F_3 F3和空间注意力映射 A s p a t A_{spat} Aspat的转置之间的矩阵乘法将注意力映射投影到空间特征域,并将结果 F 4 ∈ R C × N F_4∈\mathbb{R}^{C×N} F4RC×N整形为原始特征大小 R C × H × W \mathbb{R}^{C×H×W} RC×H×W. 最后,通过将 F 4 F4 F4乘以比例系数 α α α并以元素方式将其添加到输入特征 F s p a t F_{spat} Fspat来获得具有远程(long-range)上下文表示的最终输出。 α α α被初始化为0,并在整个训练过程中逐渐学习。

通道注意力模块:我们使用通道注意力模块来强调特征通道映射之间的相互依赖性,与位置通道模块不同,我们通过直接使用输入映射 F s p e c F_{spec} Fspec来获得光谱特征映射,因为这样可以保持不同通道映射之间的关系。特征矩阵 F s p e c F_{spec} Fspec然后被重新整形为 R C × N \mathbb{R}^{C×N} RC×N. 我们在重新整形的 F s p e c F_{spec} Fspec和它的转置之间执行矩阵乘法,然后应用Softmax层来获得光谱注意力映射 A s p e c ∈ R C × C A_{spec}∈\mathbb{R}^{C×C} AspecRC×C. 对于乘法,计算每两个通道中相应像素值的乘积之和。随后,光谱注意力映射 A s p e c A_{spec} Aspec的转置乘以重新整形的 F s p e c F_{spec} Fspec. 然后,将结果 F 4 ∈ R C × N F_4∈\mathbb{R}^{C×N} F4RC×N整形为 R C × H × W \mathbb{R}^{C×H×W} RC×H×W,并乘以比例系数 β β β,然后将其添加到原始映射 F s p e c F_{spec} Fspec,以获得最终输出,其中 β β β最初设置为0. 整个过程可以表达如下: F out  = { F spat  + α PAM ⁡ ( F spat  ) } + { F spec  + β CAM ⁡ ( F spec  ) } \mathbf{F}_{\text {out }}=\left\{\mathbf{F}_{\text {spat }}+\alpha \operatorname{PAM}\left(\mathbf{F}_{\text {spat }}\right)\right\}+\left\{\mathbf{F}_{\text {spec }}+\beta \operatorname{CAM}\left(\mathbf{F}_{\text {spec }}\right)\right\} Fout ={Fspat +αPAM(Fspat )}+{Fspec +βCAM(Fspec )}

其中 F o u t F_{out} Fout是空间光谱特征的融合。
在这里插入图片描述

Large-Scale Feature Extraction

我们设计了三个卷积块来构建一条短路径,并使用3D卷积来提取大规模像素级特征。核大小为5×5×5,输出块数为[8, 8, 1]. 跳跃连接后,输出特征通道的数量达到2k,我们使用2D卷积将通道数减半到k,以减少后续处理的参数,核大小为3×3.

Multiscale Structure

我们在多尺度特征提取中嵌入了空洞卷积,我们设计了4个并行的空洞卷积-BN-LeakyReLU块,其扩张率分别为[1, 3, 5, 7],所有卷积核大小设置为3×3,而所有输出通道数设置为k. 这种设计可以降低计算复杂度,同时保持不同的感受野。跳跃连接结果然后被馈送到标准的2D卷积层,接着是BN和LeakyReLU,这产生了32个通道的特征映射。最后,利用2D卷积层对单幅图像进行去噪处理。

DeepLab: Semantic image segmentation with deep convolutional nets, atrous convolution, and fully connected CRFs

在这里插入图片描述

实验

训练集:Washington DC(1080 × 303 × 191),裁剪成40 × 40的patch大小,行步长等于38,列步长等于40,这样总共得到41256个patches. 在训练过程中通过多角度(0°,90°,180°,270° )图像旋转进行数据增强。

测试集:Washington DC的子集(200 × 200 × 191)

噪声分布的均值为0,方差为 σ σ σ,这里, σ σ σ表示噪声水平或噪声强度。

  1. 为不同波段添加相同强度的噪声。对于不同的波段,噪声强度是相等的。例如, σ σ σ设置为5到100.
  2. 为不同波段添加随机强度的噪声。对于不同的波段,噪声强度不同,符合一个随机概率分布(如σ = rand(25)).
  3. 针对不同波段添加高斯分布的噪声。对于不同波段,噪声强度也不同;这里,噪声水平σ是沿着光谱维度添加的,并且以类似于高斯曲线的方式变化,如Gau(200,30).

参数设置:k=24,参数 β 1 β_1 β1设置为0.9, β 2 β_2 β2设置为0.999, ε ε ε设置为1e-8,权重衰减设置为1e-4,以防止网络过拟合。使用MSEloss,初始学习率设置为1e-3;随着epochs的增加,衰减指数为0.9,呈指数衰减。epochs总数是120,选择LeakyReLU作为激活函数。训练模型框架在PyTorch中实现。

对比方法:BM3D、3D NLM、BM4D、3D K-SVD、ITSReg、HSID-CNN、HSI-DeNet

指标:PSNR、SSIM、FSIM、ERGAS、SAM,文中有给出表达式。

5个指标的具体值结果列于表1至表3,视觉比较的结果如图5-7所示。我们分别计算了每个波段的PSNR、SSIM和FSIM,结果如图8-10所示,我们在图像中随机选取1个点(如(83,63)),去噪图像的光谱(反射)值减去原始图像的光谱值,结果分别显示在图11和12中。

真实数据实验:
Indian Pines(145×145×206),图13和14示出了比较算法和所提出的方法的去噪结果。图15呈现了通过不同方法去噪后的SVM分类结果。定量分类结果见表4.

University of Pavia(300×300×103),图16和17分别显示了不同波段组合的原始图像和去噪结果。图18给出了SVM分类结果,而表5列出了通过不同方法去噪后的SVM分类量化结果。

消融研究的定量结果如表5所示,而去噪结果如图19所示。

未来,我们将考虑一些先验知识,设计更有效的模块来处理不同类型的噪声(如条形噪声和死线(deadline)噪声)。

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值