论文笔记43:LRNet: Low-Rank Spatial-Spectral Network for Hyperspectral Image Denoising

LR-Net: Low-Rank Spatial-Spectral Network for Hyperspectral Image Denoising

引言

逐波段方法:相邻波段之间的高光谱相关性被忽略,导致低恢复质量和高光谱失真。

变换域方法:SSTV、SSAHTV、PARAFAC、Tucker分解等,这些方法主要是针对高斯噪声或混合泊松-高斯噪声设计的,这并不能保证在复杂的噪声环境下具有良好的性能。

低秩方法:LRMR、LRMF等,这种低秩模型必须构造复杂的目标函数,从而导致较高的计算复杂度,目标函数的优化往往会引入松弛和简化带来误差,这可能导致过光滑或噪声残留问题。

数据驱动:HSID-CNN、HSI-DeNet、ADRN、DSSRL、3DADCNN、QRNN3D等,这些方法仅将DCNN作为一个黑箱操作,并利用其强大的特征表示和拟合能力,而忽略了干净HSI的固有物理特性。因此,这些方法不能在不同的噪声情况和复杂的噪声环境下通过使用单一的经过良好训练的深度学习模型获得鲁棒性能。

方法

噪声模型: Y = X + N Y=X+N Y=X+N,维度为 R W × H × C \mathbb{R}^{W\times H\times C} RW×H×C
在这里插入图片描述

第一个3D卷积层的核尺寸为5×5×5,用于提取观测HSI的 d d d个一般3D特征图。然后,将这些特征图输入三个级联SSAB和MAB,以聚合多尺度上下文空间光谱特征。对LRM中不同层的空间光谱特征进行低秩矩阵重构后,通过1×1×1的卷积层投影到预测的残差噪声中,并通过输入特征与残差特征之间的跳跃连接得到最终特征。

噪声-干净块对: { y ( n ) , x ( n ) } ∈ R w × h × c \{y^{(n)},x^{(n)}\}\in\mathbb{R}^{w\times h\times c} {y(n),x(n)}Rw×h×c(原始的裁剪),损失函数为(MAE)
L ( θ ) = 1 w h c ∑ j = 1 w ∑ k = 1 h ∑ e = 1 c ∣ x ^ j , k , e ( n ) − x j , k , e ( n ) ∣ \mathcal{L}(\theta)=\frac{1}{w h c} \sum_{j=1}^{w} \sum_{k=1}^{h} \sum_{e=1}^{c} \mid \hat{x}_{j, k, e}^{(n)}-x_{j, k, e}^{(n)}\mid L(θ)=whc1j=1wk=1he=1cx^j,k,e(n)xj,k,e(n)

空间光谱空洞块

考虑到空间光谱的高度相关性,SSAB被引入到空间和光谱特征的完全提取和融合中。SSAB的结构:
在这里插入图片描述
三维卷积层因其高计算和内存成本而臭名昭著。我们的工作中使用了空间维度上的二维空洞卷积和光谱维度上的一维空洞卷积的级联。

在LRM之前,三个SSAB级联捕获分层空间光谱特征,用于后续的多层融合,全面描述浅层特征的纹理细节和深层特征的语义线索。

多空洞块

网络的感受野表示将映射到深层特征的输入图像上局部区域的大小。具有小感受野的局部特征包含更详细的信息,而具有大感受野的长距离特征也可以提供重要的上下文信息,以消除强噪声。
在这里插入图片描述

低秩模块

传统低秩方法:这些HSI去噪模型需要通过增广拉格朗日乘子(ALM)或交替方向乘子法(ADMM)算法进行优化,该算法计算复杂且大部分不可微分。

了利用低秩特性和处理高计算量和不可微分的问题,我们提出了一个名为低秩模块的即插即用模块,它可以很容易地集成到任何完全卷积网络中。该模块通过矩阵分解和重构生成低秩特征。

假设矩阵 F ∈ R M × N F\in\mathbb{R}^{M\times N} FRM×N可以近似分解为 F ≈ U V F\approx UV FUV,其中 U ∈ R M × K U\in\mathbb{R}^{M\times K} URM×K V ∈ R K × N V\in\mathbb{R}^{K\times N} VRK×N,我们利用 U U U V V V的矩阵积来重构低秩矩阵 F ^ \hat{F} F^,我们将重构的 F ^ \hat{F} F^的上界秩限制在 K K K,该矩阵分解思想通过LRM中的几个卷积层、归一化层、激活层和矩阵乘法层实现,所有这些层都是可微的,从而允许网络端到端可训练。
在这里插入图片描述
输入为3D特征 F ( i ) ∈ R w × h × c F^{(i)}\in\mathbb{R}^{w\times h\times c} F(i)Rw×h×c,3D特征图的总数为3d,特征映射 F ( i ) F^{(i)} F(i)由一系列光谱维度的1D卷积层 f s = 2 ∗ f^{*}_{s=2} fs=2处理,大小为 1 × 1 × 5 1\times1\times5 1×1×5,步长为2,上图中堆叠了3个1D卷积层,相当于光谱波段中的8×下采样。
U ( i ) = P ( f s = 2 1 ( ReLU ⁡ ( f s = 2 2 ( Re ⁡ L U ( f s = 2 3 ( F ( i ) ) ) ) ) ) ) \mathbf{U}^{(i)}=P\left(f_{s=2}^{1}\left(\operatorname{ReLU} \left(f_{s=2}^{2}\left(\operatorname{Re} L U\left(f_{s=2}^{3}\left(\mathbf{F}^{(i)}\right)\right)\right)\right)\right)\right) U(i)=P(fs=21(ReLU(fs=22(ReLU(fs=23(F(i)))))))

其中 U ( i ) ∈ R w h × k U^{(i)}\in\mathbb{R}^{wh\times k} U(i)Rwh×k k = c / / r r k=c//rr k=c//rr r r rr rr为LRM的秩比,它等于光谱维的下采样率,函数 P P P表示通过字典顺序将三维张量展平为矩阵的运算符。在第三分支中,通过如上所述的相同架构获得相同大小的矩阵 U ( i ) ′ U^{(i)'} U(i)。中间分支利用 1 × 1 × 1 1\times1\times1 1×1×1卷积层和Reshape输入特征图,并将 U ( i ) ′ U^{(i)'} U(i)与其相乘得到 V ( i ) ∈ R k × c V^{(i)}\in\mathbb{R}^{k\times c} V(i)Rk×c

考虑到卷积运算的无界性,我们规范化生成的矩阵 U ( i ) = \mathbf{U}^{(i)}= U(i)= { u ( i , 1 ) , … u ( i , w h ) } , u ( i , j ) ∈ R k \left\{\mathbf{u}^{(i, 1)}, \ldots \mathbf{u}^{(i, w h)}\right\}, \mathbf{u}^{(i, j)} \in \mathbb{R}^{k} {u(i,1),u(i,wh)},u(i,j)Rk V ( i ) = { v ( i , 1 ) , … v ( i , k ) } \mathbf{V}^{(i)}=\left\{\mathbf{v}^{(i, 1)}, \ldots \mathbf{v}^{(i, k)}\right\} V(i)={v(i,1),v(i,k)}, v ( i , j ) ∈ R c \mathbf{v}^{(i, j)} \in \mathbb{R}^{c} v(i,j)Rc,选择欧几里德归一化来同时归一化和保留 v ( i , j ) v^{(i,j)} v(i,j)的方向: v ^ ( i , j ) = v ( i , j ) max ⁡ ( ∥ v ( i , j ) ∥ 2 , ϵ ) \hat{\mathbf{v}}^{(i, j)}=\frac{\mathbf{v}^{(i, j)}}{\max \left(\left\|\mathbf{v}^{(i, j)}\right\|_{2}, \epsilon\right)} v^(i,j)=max(v(i,j)2,ϵ)v(i,j)

其中 ϵ = 1 0 − 6 \epsilon=10^{-6} ϵ=106,选择Softmax层来归一化并生成每个基 v ( i , j ) v^{(i,j)} v(i,j)的响应概率,以用于后续重建。 u ^ ( i , j ) = exp ⁡ ( u ( i , j ) ) ∑ t = 1 k exp ⁡ ( u t ( i , j ) ) \hat{\mathbf{u}}^{(i, j)}=\frac{\exp \left(\mathbf{u}^{(i, j)}\right)}{\sum_{t=1}^{k} \exp \left(u_{t}^{(i, j)}\right)} u^(i,j)=t=1kexp(ut(i,j))exp(u(i,j))

低秩特征由归一化的 U ^ ( i ) \hat{U}^{(i)} U^(i) V ^ ( i ) \hat{V}^{(i)} V^(i)的矩阵乘法、reshape操作和1×1×1卷积层生成,加入跳跃链接,最终得到 F o ( i ) ∈ R w × h × c F^{(i)}_o\in\mathbb{R}^{w\times h\times c} Fo(i)Rw×h×c.

LR网络中位于LRM之前的模块可以看作是一个特征提取器,表示为 f e f_e fe,用于挖掘3D深层特征 F Y ∈ R 3 d × W × H × C F_Y\in\mathbb{R}^{3d\times W\times H\times C} FYR3d×W×H×C
F Y = f e ( Y ) = f e ( X + N ) \mathbf{F}_{Y}=f_{e}(\mathbf{Y})=f_{e}(\mathbf{X}+\mathbf{N}) FY=fe(Y)=fe(X+N)

深层特征 F Y F_Y FY在LRM中被分解为 U Y ∈ R 3 d × W H × K U_Y\in\mathbb{R}^{3d\times WH\times K} UYR3d×WH×K V Y ∈ R 3 d × K × C V_Y\in\mathbb{R}^{3d\times K\times C} VYR3d×K×C
U Y = f u ( F Y ) ; V Y = f v ( F Y ) \mathbf{U}_{Y}=f_{u}\left(\mathbf{F}_{Y}\right) ; \mathbf{V}_{Y}=f_{v}\left(\mathbf{F}_{Y}\right) UY=fu(FY);VY=fv(FY)

通过1×1×1卷积实现噪声投影 f n f_n fn,得到预测的残差噪声 N ^ \hat{N} N^,并将损失函数用于训练LRNet: L ( θ ) = ∣ N ^ − N ∣ = ∣ f n ( f e ( X + N ) − R ( U Y ⊗ V Y ) ) − N ∣ \mathcal{L}(\theta)=|\hat{\mathbf{N}}-\mathbf{N}|=\left|f_{n}\left(f_{e}(\mathbf{X}+\mathbf{N})-R\left(\mathbf{U}_{Y} \otimes \mathbf{V}_{Y}\right)\right)-\mathbf{N}\right| L(θ)=N^N=fn(fe(X+N)R(UYVY))N

其中⊗表示最后两个维度上的矩阵乘法,函数 R R R表示展开空间维度的操作,以将特征映射从低秩矩阵重塑为三维张量,通过1×1×1卷积层进行线性嵌入,并进行相加逆运算。

考虑到干净HSI的低秩特性和噪声独立于干净图像X的假设,损失函数通过数据驱动策略隐含地在低秩重构特征 R ( U Y ⊗ V Y ) R\left(\mathbf{U}_{Y} \otimes \mathbf{V}_{Y}\right) R(UYVY) F Y F_Y FY的干净图像成分特征施加约束。换句话说,低秩重构特征有助于消除干净图像的信息,同时保留残差噪声。

实验

数据集:WDC训练大小1080×303×191,patch大小64×64×32,测试大小为200×200×191

真实测试集:HYDICE Urban dataset(307×307×210), the Gaofen-5 (GF-5) Baoqing dataset(300×300×155), and the GF-5 Shanghai dataset(300×300×155).

对比方法:BM4D、FastHyDe、LRMR、LRTV、LRTDGS、HSIDCNN、ADRN、3DADCNN、QRNN3D,为了公平起见,基于DCNN的方法(包括我们的LRNet)通过相同的训练策略进行训练:训练数据涵盖各种噪声类型和强度,并获得所有噪声情况下的盲去噪模型。

噪声设置:

  1. 高斯+脉冲(独立+非独立)
  2. 高斯+脉冲+条带(非独立+随机)
  3. 高斯+脉冲+死线(非独立+随机)
  4. 非独立高斯脉冲+随机条带+随机死线

网络参数:第一个3D卷积和SSABs中的通道数d设置为32,对于SSAB,将扩张率和卷积核大小设置为2和{5×5×1, 1×1×5}。在MAB中,四个卷积核大小为{3×3×1, 1×1×3},扩张率为{1, 2, 4, 6},LRM的秩比 r r = 8 rr=8 rr=8,采用LeakyReLU为激活函数。

为了训练一个单一的模型来处理所有模拟的混合噪声情况,裁剪后的训练样本需要随机模拟不同类型和强度的噪声,从(噪声)情况1.5、2.3、3.2中收集训练patches,图7显示了模拟训练集上LRNet的相应收敛曲线。考虑到真实场景中噪声的高度复杂性,模拟了每个波段中方差在[0, 0.4]之间的随机高斯噪声,三分之一波段中百分比在[0.1, 0.7]之间的随机脉冲噪声,三分之一波段中随机比率在[5%, 65%]之间的条带,在三分之一的波段中,采用随机比率在[5%, 15%]之间的死线来训练基于深度学习的方法(与上面的噪声设置不太一样)。

在推断阶段,考虑到GPU内存的消耗和LRM中对波段数的敏感性,将带噪HSI裁剪为光谱维度上重叠的32通道子图像,步长为M(M=8)。然后将这些子图像送入LRNet,以生成相应的去噪子图像。然后在重叠通道中将去噪子图像相加,并将其平均为最终预测的HSI.

评估指标:PSNR、SSIM、SAM

模拟实验

表1:所有情况的指标,我们的方法具有很强的细节保持和泛化能力,表明了LRNet在不同光谱波段上的优势和鲁棒性。

图8:WDC Case4去噪图,图9:WDC Case4垂直剖面,图10:像素(122, 100)的光谱曲线。

真实实验

图12:Urban去噪图
图13:Urban光谱曲线
图14:GF-5 Baoqing去噪图
图15:GF-5 Shanghai去噪图

讨论

  1. 秩比rr的影响,rr={2,4,8,16,32},当秩太高时,重构的低秩矩阵容易产生残差噪声分量,而当秩太低时,基的表示能力不足,并且可能丢失详细信息。见表二
  2. 裁剪步长M的影响,M={8,16,24,32},见表三
  3. MAB的扩张率,见表四
  4. 消融实验:5种变体:SS-Net、LRS-Net、SLR-Net、SS-CNet、SS-SNet,见表五
  5. 噪声投影的对比实验见表六
  6. 可视化低秩知识:矩阵 U U U,见图16,LRM能够以无监督的方式捕获输入图像中像素的潜在语义关系。当我们必须从高度相关的像素重建畸变像素时,这种关系挖掘对于恢复畸变像素非常重要。
  7. 时间:见表七

总结

然而,在低秩限制方面仍有改进的余地。目前,在LRNet中,低秩约束被施加在空间展平的2D矩阵上。在我们未来的工作中,LRM将扩展到三维张量空间,以改进网络的表示,以便在更复杂的噪声场景中处理混合噪声。

  • 2
    点赞
  • 15
    收藏
    觉得还不错? 一键收藏
  • 7
    评论
explicit spectral-to-spatial convolution for pansharpening是一种用于全色融合的显式光谱到空间卷积方法。全色融合是将高分辨率的全色(黑白)图像与低分辨率的多光谱(彩色)图像融合,以提高图像质量和细节。传统的融合方法常常使用高通滤波器进行频域操作,而explicit spectral-to-spatial convolution for pansharpening则使用基于卷积的空间域方法。 该方法基于以下原理:在全色图像中,光谱分辨率高,但空间分辨率较低;而在多光谱图像中,光谱分辨率较低,但空间分辨率较高。因此,通过将全色图像的光谱信息传递给多光谱图像,可以提高多光谱图像的空间分辨率。 explicit spectral-to-spatial convolution for pansharpening方法通过使用卷积核,将全色图像的光谱信息转换为空间域的高频细节。这个卷积核是根据光谱和空间信息之间的关系而设计的。通过将这个卷积核应用于低分辨率的多光谱图像,可以增强其空间细节,使其接近高分辨率的全色图像。 这种方法的优势在于显式地将光谱信息转换为空间域的细节,能够更好地保留图像的光谱特征和空间细节。与传统的频域方法相比,显式光谱到空间卷积方法更容易实现,并且能够更好地适应各种图像场景。 总之,explicit spectral-to-spatial convolution for pansharpening是一种通过卷积将全色图像的光谱信息转换为多光谱图像的空间细节的方法,以实现全色融合,提高图像质量和细节。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 7
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值