论文笔记35：3DADNet: Hyperspectral Image Denoising Using a 3-D Attention Denoising Network

love_lqz

已于 2022-05-20 17:56:33 修改

阅读量697

点赞数

分类专栏：论文笔记图像去噪文章标签： 3d 计算机视觉深度学习

于 2021-01-24 17:15:37 首次发布

本文链接：https://blog.csdn.net/weixin_41553159/article/details/112996476

版权

论文笔记同时被 2 个专栏收录

41 篇文章 29 订阅

订阅专栏

图像去噪

24 篇文章 23 订阅

订阅专栏

3DADNet: Hyperspectral Image Denoising Using a 3-D Attention Denoising Network

引言
相关工作
方法
实验

引言

BM3D、WNNM等band-wise去噪方法忽略了光谱信息，还可能在HSIs中引入伪影和光谱失真。

基于空间域的方法：LRMR、SSTV-LRTF等

基于变换域的方法：HSSNR等

基于深度学习方法：HSID-CNN、SSGN，大多数现有的工作使用级联卷积块或手工预处理进行并行特征提取，这可能导致嵌入在HSIs中的固有空间和光谱相关性被忽略。HSI-DeNet，HSI去噪是一个相对低级的任务，需要更多的像素级(pixel-level)特征，这意味着深度网络可能不适合该任务。HSID-CNN中，虽然普通的大的二维卷积核可以扩大感受野，但这也会导致计算成本的增加。

3-D-ADNet信息提取分为空间分支和空间光谱分支，分别采用二维卷积和三维空洞卷积。空洞卷积可以有效地扩大感受野，减少计算量。在分支合并之前，自注意力机制被应用于空间域和光谱域，这使得局部特征能够自适应地和动态地与其全局相关性相结合。双注意模块可以增强特征表示能力。

自注意力机制可以使用输入特征本身来表达该特征对结果的重要性，从而产生性能改进。对于空间域，注意力模块可以在特征映射上形成相互依赖关系。对于光谱域，注意力模块可以很好地模拟光谱相关。
轻量级策略用于大规模特征和多尺度结构提取。

方法

模型： $Y = X + N$ ，预测图像 $\hat{X}=Y-\hat{N}$ ，损失函数为 $\mathcal{L}(\Theta)=\frac{1}{2 N} \sum_{i=1}^{N}\left\|\mathcal{F}\left(\mathbf{Y}_{i}, \mathbf{Y}_{i}^{k}, \Theta\right)-\mathbf{N}_{i}\right\|^{2}$

在这里插入图片描述

Spatial-Spectral Information Extraction

空间和光谱信息提取都是通过叠加4个卷积块来实现的；每个块由卷积、BN和LeakyReLU单元组成。对于空间处理分支，我们使用2D卷积来捕捉相邻像素之间的局部相关性。我们使用3×3的核，并将每一级的扩张率设置为[1, 1, 3, 5]，卷积块的输出通道分别为[k, 32, 64, 64](k应该放最后?)，其中k表示相邻波段的数量。空间处理分支的输出大小为k×H×W，与相邻波段的输入相同，为空间-光谱信息融合做准备。

3D卷积输出体积的大小由输入特征的大小和卷积核的大小自动确定。3D卷积将输出与核数量相同的立方体，我们将3D核的大小设置为5×3×3，而扩张率为[1, 1, 3, 5]。连续块中每个3D卷积的输出体积数为[4, 8, 8, 1]，输出大小为k×H×W的立方体作为光谱特征表示。

Spatial-Spectral Feature Fusion(参考CVPR)

位置注意力模块：引入位置注意力模块来捕捉特征映射上不同位置之间的全局关系。空间特征 $F_{spat}∈\mathbb{R}^{C×H×W}$ 首先被馈送到不同的卷积层，随后是BN和LeakyReLU层，其生成三个特征映射 $F_1,F_2,F_3$ ， $\{ F_1,F_2,F_3\}∈\mathbb{R}^{C×H×W}$ ，C表示特征的通道数。然后新的特征都被重新整形(reshape)为 $\mathbb{R}^{C×N}$ ，其中N为特征映射中的像素数。为了获得空间注意力映射 $A_{spat}$ ，我们将 $F_1$ 的转置与 $F_2$ 相乘，并将结果传递给Softmax层。矩阵乘法计算任意两个像素值的乘积(大小不一样，应该不是element-wise)，而Softmax函数对每个位置的所有特征值进行归一化。
在这里插入图片描述
因此，注意力映射 $A_{spat}∈\mathbb{R}^{N×N}$ 上的 $a_{ij}$ 代表了第 $j$ 位置对原始特征映射上第 $i$ 位置的加权(weighted)影响。随后，我们通过实现空间特征 $F_3$ 和空间注意力映射 $A_{spat}$ 的转置之间的矩阵乘法将注意力映射投影到空间特征域，并将结果 $F_4∈\mathbb{R}^{C×N}$ 整形为原始特征大小 $\mathbb{R}^{C×H×W}$ . 最后，通过将 $F 4$ 乘以比例系数 $α$ 并以元素方式将其添加到输入特征 $F_{spat}$ 来获得具有远程(long-range)上下文表示的最终输出。 $α$ 被初始化为0，并在整个训练过程中逐渐学习。

通道注意力模块：我们使用通道注意力模块来强调特征通道映射之间的相互依赖性，与位置通道模块不同，我们通过直接使用输入映射 $F_{spec}$ 来获得光谱特征映射，因为这样可以保持不同通道映射之间的关系。特征矩阵 $F_{spec}$ 然后被重新整形为 $\mathbb{R}^{C×N}$ . 我们在重新整形的 $F_{spec}$ 和它的转置之间执行矩阵乘法，然后应用Softmax层来获得光谱注意力映射 $A_{spec}∈\mathbb{R}^{C×C}$ . 对于乘法，计算每两个通道中相应像素值的乘积之和。随后，光谱注意力映射 $A_{spec}$ 的转置乘以重新整形的 $F_{spec}$ . 然后，将结果 $F_4∈\mathbb{R}^{C×N}$ 整形为 $\mathbb{R}^{C×H×W}$ ，并乘以比例系数 $β$ ，然后将其添加到原始映射 $F_{spec}$ ，以获得最终输出，其中 $β$ 最初设置为0. 整个过程可以表达如下： $\mathbf{F}_{\text {out }}=\left\{\mathbf{F}_{\text {spat }}+\alpha \operatorname{PAM}\left(\mathbf{F}_{\text {spat }}\right)\right\}+\left\{\mathbf{F}_{\text {spec }}+\beta \operatorname{CAM}\left(\mathbf{F}_{\text {spec }}\right)\right\}$

其中 $F_{out}$ 是空间光谱特征的融合。
在这里插入图片描述

Large-Scale Feature Extraction

我们设计了三个卷积块来构建一条短路径，并使用3D卷积来提取大规模像素级特征。核大小为5×5×5，输出块数为[8, 8, 1]. 跳跃连接后，输出特征通道的数量达到2k，我们使用2D卷积将通道数减半到k，以减少后续处理的参数，核大小为3×3.

Multiscale Structure

我们在多尺度特征提取中嵌入了空洞卷积，我们设计了4个并行的空洞卷积-BN-LeakyReLU块，其扩张率分别为[1, 3, 5, 7]，所有卷积核大小设置为3×3，而所有输出通道数设置为k. 这种设计可以降低计算复杂度，同时保持不同的感受野。跳跃连接结果然后被馈送到标准的2D卷积层，接着是BN和LeakyReLU，这产生了32个通道的特征映射。最后，利用2D卷积层对单幅图像进行去噪处理。

DeepLab: Semantic image segmentation with deep convolutional nets, atrous convolution, and fully connected CRFs

在这里插入图片描述

实验

训练集：Washington DC(1080 × 303 × 191)，裁剪成40 × 40的patch大小，行步长等于38，列步长等于40，这样总共得到41256个patches. 在训练过程中通过多角度(0°，90°，180°，270° )图像旋转进行数据增强。

测试集：Washington DC的子集(200 × 200 × 191)

噪声分布的均值为0，方差为 $σ$ ，这里， $σ$ 表示噪声水平或噪声强度。

为不同波段添加相同强度的噪声。对于不同的波段，噪声强度是相等的。例如， $σ$ 设置为5到100.
为不同波段添加随机强度的噪声。对于不同的波段，噪声强度不同，符合一个随机概率分布(如σ = rand(25)).
针对不同波段添加高斯分布的噪声。对于不同波段，噪声强度也不同；这里，噪声水平σ是沿着光谱维度添加的，并且以类似于高斯曲线的方式变化，如Gau(200,30).

参数设置：k=24，参数 $β_1$ 设置为0.9， $β_2$ 设置为0.999， $ε$ 设置为1e-8，权重衰减设置为1e-4，以防止网络过拟合。使用MSEloss，初始学习率设置为1e-3；随着epochs的增加，衰减指数为0.9，呈指数衰减。epochs总数是120，选择LeakyReLU作为激活函数。训练模型框架在PyTorch中实现。

对比方法：BM3D、3D NLM、BM4D、3D K-SVD、ITSReg、HSID-CNN、HSI-DeNet

指标：PSNR、SSIM、FSIM、ERGAS、SAM，文中有给出表达式。

5个指标的具体值结果列于表1至表3，视觉比较的结果如图5-7所示。我们分别计算了每个波段的PSNR、SSIM和FSIM，结果如图8-10所示，我们在图像中随机选取1个点(如(83,63))，去噪图像的光谱(反射)值减去原始图像的光谱值，结果分别显示在图11和12中。

真实数据实验：
Indian Pines(145×145×206)，图13和14示出了比较算法和所提出的方法的去噪结果。图15呈现了通过不同方法去噪后的SVM分类结果。定量分类结果见表4.

University of Pavia(300×300×103)，图16和17分别显示了不同波段组合的原始图像和去噪结果。图18给出了SVM分类结果，而表5列出了通过不同方法去噪后的SVM分类量化结果。

消融研究的定量结果如表5所示，而去噪结果如图19所示。

未来，我们将考虑一些先验知识，设计更有效的模块来处理不同类型的噪声(如条形噪声和死线(deadline)噪声)。

love_lqz

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
1
评论
论文笔记35：3DADNet: Hyperspectral Image Denoising Using a 3-D Attention Denoising Network

我们设计了两个并行的分支来分别处理空间和光谱信息。位置注意力模块应用于空间分支，以在特征映射上形成相互依赖性，而通道注意力模块应用于光谱分支，以在两个分支组合之前模拟光谱相关性。在融合空间和光谱信息后，多尺度结构也被用来提取和融合多尺度特征。
复制链接

扫一扫