TDNet(Pansharpening任务)论文精读

TDNet解读博客一
摘要:泛锐化是指将具有高空间分辨率的全色(PAN)图像与具有低空间分辨率的多光谱(MS)图像进行融合,以获得高空间分辨率的MS (HRMS)图像。在本文中,我们提出了一种新的基于水平域损失函数的深度神经网络架构,用于pansharpening,该架构考虑了以下双类型结构,即双级别、双分支和双方向,称为三双网络(TDNet)。利用TDNet的结构,可以充分利用PAN图像的空间细节,逐步注入到低空间分辨率的MS (LRMS)图像中,从而得到高空间分辨率的输出。具体的网络设计是由传统多分辨率分析(MRA)方法的物理公式驱动的。因此,一个有效的MRA融合模块也集成到TDNet中。此外,我们采用少量ResNet块和一些多尺度卷积核对网络进行深度和加宽,有效增强了TDNet的特征提取和鲁棒性。在WorldView-3、QuickBird和高分-2传感器采集的低分辨率和全分辨率数据集上进行的大量实验表明,与最近一些最先进的泛锐化方法相比,所提出的TDNet具有优势。一项消融研究也证实了该方法的有效性。代码可在https://github.com/liangjiandeng/TDNet上获得。

I. INTRODUCTION

遥感卫星专门用于从地球表面收集图像数据。然而,由于传感器硬件的信噪比(SNR)的限制,我们无法在一次唯一采集中获得高的空间和光谱分辨率。因此,IKONOS、高分、QuickBird和WorldView-3等卫星通常会捕获包含多个光谱波段的图像,称为多光谱(MS)图像,以及具有高空间分辨率的全色(PAN)图像,即包含许多图像细节。因此,通常需要对这些数据进行融合,以获得非常高的空间光谱分辨率产品。Pansharpening是将PAN图像与MS图像进行融合,得到与PAN图像具有相同空间分辨率和与MS图像具有相同光谱分辨率的最终结果。该研究课题近年来发展迅速,已被证明是一种有效的图像融合方法[3]。pansharpening的成果已广泛应用于地物检测、制图和各种高级应用的图像数据预处理[4],[5]。在过去的 几十年里,针对pansharpening问题提出了许多不同的方法,这些技术大致可以分为四类[6]-[8],即组件替换(CS)方法、多分辨率分析(MRA)方法、变分优化(VO)方法和深度学习(DL)技术。在这项工作中,我们的方法是基于卷积神经网络(cnn),因此属于深度学习技术。接下来,我们将介绍每个类别的代表性方法。
基于cs的方法通常是属于传统技术的简单方法。他们将原始MS图像投影到一个变换域,其目的是简化部分或全部空间信息的替换,使PAN图像的空间结构组件替换更容易。值得一提的是,许多开创性的pansharpening方法都是基于CS哲学的,因为这类方法通常具有简单有效的实现。这一类的代表性例子有部分替换自适应CS (PRACS)[9]、Gram-Schmidt (GS)光谱锐化[10]和带相关空间细节局部参数估计(BDSD)[11]。请注意,基于cs的方法通常可以获得更好的渲染产品,但要付出更大的光谱失真。
MRA方法是另一类传统方法,其目标是将从PAN图像中提取的空间细节注入到MS图像中,MS图像被插值到PAN图像的大小。考虑到光谱质量,基于核磁共振的融合结果优于基于cs的方法。然而,这些方法很容易产生伪影,从而经常引入空间失真。这类方法有基于平滑滤波的强度调制(SFIM)[12]、加性小波亮度比例(AWLP)[13]、高通调制注入模型的调制传递函数广义拉普拉斯金字塔(GLP-HPM)[14]、基于全分辨率回归注入模型的调制传递函数广义拉普拉斯金字塔(GLP-Reg)等。
与上述传统方法不同,基于vo的方法是通过施加预先指定的先验项来正则化底层高分辨率MS (HRMS)图像[16]-[18]。与一些最先进的CS和MRA技术相比,这些方法具有优雅的数学公式,并且具有良好的空间光谱保存性能[19]-[21]。基于vo的方法的主要缺点是计算量大,包括许多超参数的调优。因此,CS和MRA方法目前仍用于基准测试目的。
近年来,深度学习技术因其从大数据中隐式学习先验的强大能力而备受关注。毫无疑问,基于深度学习的方法在遥感图像领域得到了广泛的应用[22]-[24]。作为一种新兴的解决pansharpening的分类,DL需要更高层次的物理支持。结构设计是至关重要的,因为它与模型的性能增益密切相关。DL方法通过构建具有一定结构和功能单元的CNN(如深度残差网络[25]、多尺度、多深度网络[26]),通过在卫星数据集上的训练,再现MS图像、PAN图像和理想融合图像之间的非线性关系。Masi等人[27]在2016年进行了开创性的尝试,他们设计了一个专门用于pansharpening的三层CNN,取得了很好的效果。受PNN的启发,许多研究人员开发了依赖于cnn的各种结构。其中,ResNet[28]中的残差模块被广泛用于pansharpening[1],[25],[29]。然而,神经网络的学习过程难以解释,且在参数难以更新的情况下,神经网络常常陷入梯度消失的困境。特别是图像的一些基本属性和先验信息,如高频信息的唯一性、频谱的内在关系等,往往被这类“黑箱”深度模型所忽略,有很大的改进空间。因此,我们认为网络框架应该基于当前问题的一些特征来设计,强调输入图像之间的独特关系[16],[30]。
在本文中,我们提出了一种新的泛锐化方法,该方法可以利用多尺度空间细节策略,逐步将泛锐化细节注入到低分辨率的MS图像中。一种新型的三双网络(TDNet)结构设计基于MRA公式。本工作的主要贡献可以概括如下:
1)我们提出了一种双层次、双分支、双向的网络总体结构,将PAN图像中潜在的多尺度空间细节以分层、双向的方式注入到MS图像中。在此框架下,我们采用基于水平域的损失函数对多层结果进行约束,保证最终融合结果合理。
2)在传统MRA方法的基础上,设计了嵌入TDNet结构的MRA块(MRAB)。MRAB可以较好地完成PAN图像结构信息的提取。这种块结构的设计还引入了注意机制的思想,比传统的方法更加灵活和健壮。
3)考虑到pansharpening问题需要在不同尺度注入不同目标,采用多尺度卷积核模块对网络进行深度和加宽,提高了非线性拟合的能力。结果如图1所示,证明了所提出方法的优越性

II.NOTATION AND RELATED WORKS

A.Notation
B.Background
C.Overview of MRA Methods
D.CNNs for Pansharpening
E.Motivation

III.PROPOSED NETWORK

如前所述,我们的模型受到传统MRA方法的启发,将从PAN图像中提取的空间结构信息添加到上采样的LRMS图像中。拟议网络的总体流程图如图3所示,其中包括以下部分:1)MRAB,其结构基于MRA一般公式;2)利用多尺度卷积特征提取块(MSCB)进一步提高融合图像的质量,增强网络的学习潜力;三双架构,即双层、双分支、双向,可以充分利用多尺度信息。

A. MRA Block

以物理MRA公式(2)为例,其中需要注入的空间细节,仅从具有适当注入系数G的PAN图像中提取,因此,传统的MRA方法可以等效地表示为以下网络架构:
在这里插入图片描述
其中H(·)由隐卷积层表示,目的是从PAN图像中提取细节D。此外,g(·)由模拟(2)中细节注入系数规律的空间注意表示。此外,上采样的MS图像可以通过一个简单的PixelShuffle上采样操作。(5)中的第一个公式可以看作是PAN的空间细节,即P−PL,(5)中的第二个公式等价于MRA公式(2),其中g(·)表示所涉及图像之间的非线性关系,而不是(2)中的线性关系。综上所述,MRAB由三部分组成:1)LRMS图像的上采样;2)特征映射的提取;3)细节注入的空间注意模块。MRAB的详细信息见图2(b)。

1)上采样LRMS图像:在图2(b)中,第一步是将原始LRMS图像上采样到与GT图像相同的大小。在以往的泛锐化研究中,LRMS图像通常通过插值或反卷积操作进行放大。Shi等人[40]提出了一种高效的亚像素卷积操作(称为PixelShuffle),该操作学习一组过滤器,将低分辨率特征提升到HR输出中。PixelShuffle在解决单图像超分辨率问题时获得了很高的性能[40]。因此,我们在模型中引入PixelShuffle来提升LRMS图像,以达到更好的性能。特别地,通过卷积得到c × r 2通道的特征映射(其中r为LRMS与PAN图像之间的上尺度因子),然后通过周期性变换得到HR图像。
2)提取特征图:如上所述,传统的MRA方法提取细节,计算PAN图像与低通滤波后的PAN图像之间的差异。因此,最终结果取决于所采用的预定义过滤器,这些过滤器可能会机械地丢弃一些期望的信息。由于使用了卷积层,可以学习和动态调整一组参数,从而彻底探索特定的细节并选择预期的特征。此外,为了使模型适应不同的数据集,消除固定滤波器带来的失拟问题,我们通过学习(5)中的映射H(·)提取端到端的高频信息。Zhang等[39]使用ResNet块作为特征提取的基本结构。然而,为了保留原始图像中更多的信息并减少计算负担,我们只采用一个ResNet块来形成TDNet中的PAN分支。

图2所示。(a)传统MRA方法示意图。(b) MRAB是在传统MRA方法的基础上设计的。注意(a)中的上采样操作是一个23个系数的多项式核[31]。考虑8波段数据集来定义(b)中的卷积核数。

图4所示。PAN分支概述见图3底部。DF是包含64个通道的详细信息的特征图。D是与GT具有相同通道数的特征图。MaxPooling的输出记为PDD,带有减少尺寸的详细信息的特征图记为DD。注意,卷积核的数量与涉及8波段数据集的示例性融合案例有关。
在这里插入图片描述
如图2(b)所示,从PAN图像中提取的细节由图3所示的PAN分支获得。与传统MRA方法的不同之处在于,MS图像被上采样两次,即使用2的比例因子(当r等于4时)。PAN分支的详细信息如图4所示。
3)细节注入的空间注意模块:回顾原MRA公式(2)和MRA启发公式(5),我们可以发现(2)中的细节图像D乘以G相当于空间注意。由于注射系数G通常依赖于MS和P,这促使我们设计涉及这两个分量的空间注意。具体来说,我们将上采样的MS和D连接在一起,进行如图2(b)所示的卷积运算,目的是学习一个包含MS和P图像的足够特征的权值矩阵W∈RH×W×c。提出的注入策略是将PAN分支获得的学习特征D与权值矩阵W相乘,然后将其加入到PixelShuffle生成的上采样MS中,从而得到MRAB输出。

B.多尺度卷积特征提取块

虽然MRAB可以导致具有物理可解释性的竞争结果,但获得的网络架构没有深层,限制了特征提取及其非线性拟合能力。因此,我们将Yuan等人[38]启发的多尺度卷积块(表示为MSCB)引入到我们的模型中以加深网络。图5显示了MSCB的详细信息和相应的参数。

C. TDNet总体结构

为了解决LRMS和GT图像尺寸不同的问题,传统的方法是直接将LRMS图像上采样到GT图像的尺寸(通常上采样4倍),但这种操作会导致空间损失,甚至导致图像失真。通过考虑在充分利用多尺度信息的基础上,设计了双层次、双分支、双向的TDNet。接下来,我们将介绍拟议的TDNet的总体结构。
所提出的TDNet的概述如图3所示。
图3所示。提出的TDNet由两个分支组成的流程图,即PAN分支和融合分支。为方便起见,LRMS图像和PAN图像分别记为MS和P。MS D为一级融合的输出,MS为最终的HRMS图像。DD和D是PAN支路的输出。将GT图像及其下采样版本分别记为GT和GTD。该网络的参数和细节可在第三节中找到。卷积运算中使用的卷积核数如图4所示。
1)双分支:从图3中可以清楚地看出,网络分为两个分支,即PAN分支和融合分支。PAN分支将PAN图像作为唯一的输入。它提取并表示多尺度空间特征,并将其注入融合分支以提供足够的空间细节。融合分支的目标是将输入的LRMS图像与PAN分支的多尺度空间特征融合,得到最终的HRMS图像。融合分支包含前面提到的一些基本策略,如MRAB和MSCB。
2)双尺度:在这项工作中,我们使用两级策略对MS图像进行上采样,其中MS图像在每个级别上被升级到其两倍大小(即,以2的升级因子),从而利用多尺度特征进行泛锐化。特别是PAN分支和融合分支都具有双层结构,具有较好的分辨率增强能力。
3)双向:由于双级的使用,设计一个双方向的网络架构(称为双向)是充分利用PAN和MS图像多尺度信息的一种很有前途的策略。如图3 TDNet流程图所示,PAN分支和融合分支均为双级结构。前者将PAN图像下采样到较小的尺寸,后者将LRMS图像上采样到较大的尺寸。
两个分支的信息流方向相反,相互对应,以实现分支间的信息融合。在之前的基准研究中,类似的策略已被证明是有效的[39]。
综上所述,本文提出的TDNet的最终架构由上述三方面构成,即双分支、双层次、双向。其中,双分支以已知的LRMS图像和PAN图像作为输入,实现了特征的区分表示。双层次使网络发挥了多尺度的特点,双向加强了两个分支之间的相互作用,提高了网络的性能。

D. Loss Function

如前所述,我们的TDNet体系结构包含双层结构,这导致了两个损失函数。
在这里插入图片描述

  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
explicit spectral-to-spatial convolution for pansharpening是一种用于全色融合的显式光谱到空间卷积方法。全色融合是将高分辨率的全色(黑白)图像与低分辨率的多光谱(彩色)图像融合,以提高图像质量和细节。传统的融合方法常常使用高通滤波器进行频域操作,而explicit spectral-to-spatial convolution for pansharpening则使用基于卷积的空间域方法。 该方法基于以下原理:在全色图像中,光谱分辨率高,但空间分辨率较低;而在多光谱图像中,光谱分辨率较低,但空间分辨率较高。因此,通过将全色图像的光谱信息传递给多光谱图像,可以提高多光谱图像的空间分辨率。 explicit spectral-to-spatial convolution for pansharpening方法通过使用卷积核,将全色图像的光谱信息转换为空间域的高频细节。这个卷积核是根据光谱和空间信息之间的关系而设计的。通过将这个卷积核应用于低分辨率的多光谱图像,可以增强其空间细节,使其接近高分辨率的全色图像。 这种方法的优势在于显式地将光谱信息转换为空间域的细节,能够更好地保留图像的光谱特征和空间细节。与传统的频域方法相比,显式光谱到空间卷积方法更容易实现,并且能够更好地适应各种图像场景。 总之,explicit spectral-to-spatial convolution for pansharpening是一种通过卷积将全色图像的光谱信息转换为多光谱图像的空间细节的方法,以实现全色融合,提高图像质量和细节。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值