Ultralightweight Spatial–Spectral FeatureCooperation Network for Change Detection...部分翻译

Abstract

深度卷积神经网络(CNN)在遥感图像变化检测(CD)中取得了很大的成功,但仍然存在两个主要问题。首先,现有的多尺度特征融合方法通常使用冗余特征提取和融合策略,这通常导致较高的计算成本和内存使用。其次,CD中的调节机制很难同时对空间-光谱特征进行建模和生成3-D注意权重,忽略了空间特征和光谱特征之间的协作。为了解决上述问题,本文提出了一种用于光盘的高效超轻量空间-光谱特征协作网络(USSFC-Net)。拟议的USSFC网络有两个主要优势。首先,设计了一种多尺度解耦卷积(MSDConv),它与流行的atrous空间金字塔池(ASPP)模块及其变体明显不同,因为它可以使用循环多尺度卷积灵活地捕获变化对象的多尺度特征,MSDConv的设计可以大大减少参数的数量和计算冗余。其次,引入了一种高效的空间-频谱特征协作(SSFC)策略,以获得更丰富的特征。SSFC不同于现有的2-D注意机制,因为它在不添加任何参数的情况下学习3-D空间-光谱注意权重。在三个遥感图像CD数据集上的实验表明,与大多数基于CNN的方法相比,该USSFC网络实现了更好的CD精度,并且需要更低的计算成本和更少的参数,即使它优于一些基于Transformer的方法。

INTRODUCTION

遥感图像变化检测(CD)的目标是识别在不同时期拍摄的两个相同地理位置的图像之间的差异[1]。它在许多领域都具有重要意义,包括灾害监测[2]、城市规划[3]、环境调查[4],仅举几例。近年来,由于自然环境的恶化,这些应用变得更加关键。因此,出现了大量的CD方法,大致可以分为两类:传统方法和基于深度学习的方法。大多数传统方法依赖于手动特征提取,如主成分分析(PCA)[5]、[6]、Gabor滤波器[7]、多元变化检测(MAD)[8]和变化向量分析(CVA)[9]。这些方法可以在一定程度上实现CD,但它们存在以下弱点。一方面,传统方法提取的图像特征容易受到季节变化、光照条件和卫星传感器的影响,使得它们对实现高CD精度的鲁棒性较低。另一方面,尽管一些方法[7]、[10]可以通过结合形状和纹理特征来减少错误检测,但这些策略通常需要大量的计算和超参数,导致低稳健性和高计算成本。此外,手动提取特征严重依赖先验领域知识,这限制了models.In近年来的泛化能力,越来越多的兴趣导致卷积神经网络[11]更多地应用于遥感图像CD。与传统方法相比,基于深度学习的方法需要更少的人工干预,并且可以从注释数据中自动学习特征。此外,基于深度学习的方法由于其出色的特征提取能力可以更好地理解复杂场景,并且它们的性能比传统方法好得多。由于CD可以看作是一种图像分割任务,目前基于深度学习的CD骨干网大多采用全卷积网络(FCN)[12]和U形网络(U-Net)[13]等编码器-解码器结构,但与一般图像分割任务不同的是,CD的输入是一对双时态图像,为了有效融合双时态图像信息,在遥感图像中应用Siamese结构作为CD的基准。

由于遥感图像尺度变化和背景复杂,各种多尺度特征融合模块和注意力机制[65]、[66]已经被引入到遥感图像CD的深度神经网络中[16]。然而,它们仍然面临以下挑战。首先,直接引入现有的多尺度特征融合模块可能会导致大量的特征冗余;原因之一是并行使用多个空洞卷积需要冗余的可学习参数。其次,虽然空间注意力和通道注意力都可以在不同程度上提高CD准确率,但它们直接忽略了空间特征和光谱特征的建模以及三维注意力权重。由于双时相遥感图像的光谱信息包含在多维通道的特征图中,空间和通道注意力级联经常被用来模拟变化对象的空间-光谱相关性,需要大量额外的内存和计算成本[37]。为了解决上述问题,提出了一种超轻量级空谱特征协作网络(USSFC-Net)。该网络以伪SiameseU-Net[13]为骨干。它使用多尺度解耦卷积(MSDConv)代替普通卷积进行特征提取。MSDConv有两个优点。首先,它将卷积解耦为空间和信道相关关系的级联,其中通道相关系数由点卷积计算,空间相关性由深度卷积获得。这种解耦显著降低了卷积的计算成本和参数冗余。其次,为了捕捉不同尺度的变化对象,MSDConv循环使用深度卷积的膨胀率组合来进行空间相关性扩展。这种循环多尺度结构避免了增加额外参数。因此,MSDConv作为轻量级权重和高效的多尺度特征抽取模块脱颖而出。此外,还设计了一种空间-光谱特征协作(SSFC)策略来捕获更好的变化相关特征。它是通过使用高斯建模生成空间和光谱协作3-D权重来实现的。该策略不需要任何额外的可学习参数,并且可以有效地嵌入到MSDConv中,以在特征抽取阶段获得更丰富的特征。本文的主要贡献可以总结如下。1)MSDConv是为CD网络设计的。它可以使用具有解耦空间和通道相关性的紧凑设计来有效地捕获遥感图像中变化对象的多尺度特征。不同于流行的多尺度特征抽取方法,如先启[18]、无顶空间金字塔池(ASPP)[65]和特征金字塔网络(FPN)[19],MSDConv更加轻量级和高效。2)在MSDConv中引入SSFC以获得更丰富的特征。它是一种低成本但高性能的CD注意力机制。与流行的二维注意力机制如空间注意力、通道注意力及其变体相比,SSFC无需任何额外的参数即可实现空间-光谱协同三维注意力。3)基于MSDConv和SSFC的使用,提出了一种高效的USSFC-Net。进行了广泛的实验,结果表明,与大多数流行的CD网络相比,所提出的USSFC-Net实现了更高的CD准确率,并且需要更少的参数。本文的其余部分组织如下。第二部分对相关工作进行了回顾。第三部分对所提出的方法进行了详细描述。实验结果在第四部分报告。第五部分给出了关键问题的讨论。结论包含在第六部分

RELATEDWORK

A.遥感影像CD的骨干网络
由于深度学习和计算机视觉的发展,越来越多的深度学习方法被用于遥感影像CD。这些方法可以大致分为两组。第一组直接从时间前和时间后图像生成的差异图像中学习变化的特征[14],[29]。然而,它们没有考虑CD任务的具体特点,只是简单地使用通用CNN来实现CD,这导致检测精度低。第二组方法分别对双时态图像进行特征提取,然后在网络的不同阶段充分比较和融合不同的时空特征以获得差异图像。Daudt等人[14]首先将Siamese网络[20]应用于遥感图像CD。Siamese网络通常由两个权重共享分支组成,分别用于时间前和时间后图像的特征提取。将Siamese网络应用于双时态遥感图像时,提取了双时态特征并用于生成变化的图像,更有利于提高CD准确率。此外,基于Siamese结构的更多改进的CD框架可以在[15]、[21]、[22]、[23]、[24]、[25]、[26]、[27]和[28]中看到。然而,由于许多应用场景受到计算资源的限制,越来越多的紧凑型网络被设计成以低成本的方式实现CD。Wang et al.[61]使用瓶颈和扩张卷积代替了evanilla卷积层,有效地降低了参数和计算成本。为了获得丰富的上下文信息,Han et al.[62]引入了人工填充卷积,并为CD光学遥感成像设计了一种新的损失函数。通过在光盘中引入视觉转换器,戴等人。[63]使用MobileViT以更快的推理速度实现高查准率/精确度光盘。

Siamese网络的优点是具有较少的参数。然而,权重共享编码器可能会导致特征抽取能力弱,从而影响对变化对象的分类准确率。使用非权重共享编码器可能会解决这个问题,但这通常会导致参数数量的增加。为了解决这个问题,有必要为遥感变化检测任务设计一个超轻量级的网络

B.遥感图像变化检测的多尺度特征融合
在当前流行的神经网络中,卷积神经网络(CNN)相对于多层感知器和Transformer具有两个独特的优势:参数共享和稀疏连接。这种计算特性导致感受野的大小决定了特征提取的性能[64]。因此,为卷积层设计有效的感受野尺度对基于CNN的遥感变化检测方法至关重要。为了解决这个问题,研究人员设计了多尺度融合模块来高效地扩展感受野。一种更直观的扩展感受野的方法是简单地增加卷积核的大小。Lei等人[29]提出了金字塔池化模块,用于提取深层特征,并使用三种不同大小的卷积核对差异图像进行融合,可以有效捕捉遥感图像的多尺度特征。Shen等人[30]采用类似的多尺度特征提取策略,在多尺度特征融合之前应用点卷积进行降维。Hou等人[31]提出了动态Inception模块,将动态卷积引入多尺度特征融合模块,以提高网络的特征表示能力。
尽管上述方法可以解决使用大内核尺寸或多尺度特征融合扩展感受野的问题,但这些策略会导致参数和计算成本的增加。为了解决这个问题,非对称卷积[32]通过将大小为k×k的卷积内核分解为大小为1×k和大小为k×1的两个1-D卷积内核的叠加来减少参数的数量。然而,这种操作导致特征图中像素的偏移量。为了更有效地实现感受野的扩展,无规则卷积[33]使用具有空值的不规则卷积内核来扩展感受野。这种方法被广泛用于图像分割等密集的语义预测任务,例如,DeepLab V2-V3+[34]、[52]、[65]通过设计ASPP模块实现了高效的多尺度特征融合。除了多尺度卷积内核的设计,FPN[19]的结构也流行于特征融合。受FPN和非局部[35]的启发,Chen等人提出了遥感图像CD的NL-FPN[36],它可以有效地融合多尺度特征,同时捕捉图像的长期依赖性。
然而,上述这些方法需要在不同尺度上重用大量的卷积或池化操作,这导致了丰富的特征冗余和计算负担。到目前为止,几乎没有一种方法可以以更有效的方式捕获和融合图像多尺度特征

C.遥感图像CD的注意力机制
近年来,注意力机制已被证明可以有效地捕捉各种计算机视觉任务的特征空间和通道的重要差异[37]。特别是,自注意力[38]及其变体可以对全局空间关系进行建模,可以有效地帮助网络识别改变和不变的对象。受认知科学的启发,神经网络中的注意力机制通常可以分为两种类型,通道注意力和空间注意力。通道注意力[66]首先利用特征图上的全连接层对通道关系进行建模,然后将通道注意力权重应用于原始特征图,以获得不同重要性的特征图。在此基础上,Li等人[39]将来自squeeze-and-excitation(SE)模块的注意力权重重新应用于卷积内核,以选择自主适合的不同大小的卷积内核。为了简化SE模块的计算,Wang等人[40]通过考虑每个通道及其近邻来捕获局部跨通道的相互作用,进而提高了通道注意力的效率。除了通道注意力之外,许多方法更多地关注特征图上的局部和全局关系。卷积块注意力模块(CBAM)[37]最初通过将它们顺序级联来实现空间和通道注意力的协同作用。Zhang等人[24]和Shiet al.[28]将CBAM引入遥感图像CD。他们融合了空间注意力和通道注意力来重建差异图像,从而实现了更高的CD准确率。非局部[35]使一个网络更加关注空间特征的远距离依赖。基于这一思想,Chen等人[16]引入了双重注意力模块来捕获远距离依赖,从而改进了网络的特征表示。雷等人[27]提出了一种遥感图像CD的空谱非局部(SSN)策略,它不同于香草非局部模块,因为在CD的过程中融入了空间多尺度特征来对物体中的大尺度变化进行建模,该模块可用于加强变化物体的边缘完整性和内部紧密度。自从视觉计算机任务中基于Transformer的网络的繁荣以来,越来越多的研究将注意力自引入图像分类和图像语义分割[41],[42],[43]。图像语义分割,类似于CD,是一种密集的分类任务。基于自注意力,遥感图像CD领域也涌现出了一些优秀的作品。其中,Chen等人[44]提出了一种时空全局语义关系的高效建模,便于空间兴趣区域变化对象的特征表示。Bandara和Patel[45]提出了一种基于Transformer的Siamese CD框架,对变化对象所需的长程依赖关系进行了有效建模。此外,Zhang等人[59]利用流行的SwinTransformer[43]对bitem时间特征的全局依赖关系进行了建模。针对Transformer对位置不敏感的问题,Wind等人[46]引入了深度卷积相对位置编码,并利用局部和全局特征融合的策略提出了Transformer和CNN相结合的CD网络,取得了较好的CD效果。

在这里插入图片描述
图1.提出的USSFC-Net的架构。(a)概述架构。将一对双时间图像输入到非权重共享编码器中,并将每个阶段的差异图像融合到解码器中。提出了带有SSFC策略的MSDConv作为特征提取器的基本组件。(b)提出了带有SSFC的MSDConv。MSDConv可以捕获变化对象的多尺度特征表示。SSFC为MSDConv生成更丰富的特征。两者可以协同提高CD准确率。

为了模拟不同阶段特征图之间的上下文依赖,Zhang等人[60]提出了一种多级变化感知的变形注意。上述基于注意力的CD网络可以分别通过对空间或光谱关系进行建模来增强网络的语义表示。但是这些方法不仅增加了模型的复杂性,而且忽略了空间和光谱信息之间的合作。很明显,目前基于注意力的CD网络不能同时有效地模拟空间-光谱依赖

METHODS

A.概述
在本节中,我们首先简要概述了所提出的USSFC-Net。如图1所示,USSFC-Net由一个双分支非权重共享编码器和解码器组成。我们首先将一组双时态图像放入由MSDConv和SSFC组成的双分支编码器中,分别用于特征抽取。在这个阶段,每个MSDConv块有效地捕获双时态图像的多尺度特征。为了丰富MSDConv生成的特征,我们在空间相关性扩展阶段使用SSFC策略进行特征增强。随后是一个解码器,该解码器由一个反卷积上采样层和一个使用所提出的MSDConv的特征恢复层组成。在编码器的每个阶段,我们获取一个差异图像并将其连接到解码器的相应位置,以获得更丰富的变化对象的特征图。最后,网络使用点卷积进行降维和规范化操作,输出最终的CD结果。从图1(a)可以看出,与其他流行的CD网络相比,所提出的USSFC-Net在Siamese结构上做了以下改变[14]。1)使用了一种非权重共享的伪Siamese编码器,通过增加很少的参数来实现更好的特征抽取。2)引入了所提出的MSDConv来代替编码器-解码器结构中的vanilla卷积。它是一个紧凑的特征抽取模块,用于获得变化对象的多尺度特征表示。主要思想是通过可分离的循环多尺度特征抽取来高效地捕获多尺度变化对象,同时减少vanilla卷积参数的数量。3)USSFC-Net引入了SSFC策略。它可以在不添加参数的情况下获得三维注意力权重,有效提高网络的特征表示能力。MSDConv从多尺度角度保留了变化对象的完整性,SSFC帮助MSDConv从注意力角度生成更丰富的特征。显然,通过将MSDConv与SSFC相结合,我们可以获得更好的遥感图像光盘结果。

B.使用MSDConv进行高效的空间相关系数扩展
如前所述,我们认为现有的多尺度特征融合方法在不同尺度上重用了大量的卷积内核或池化操作。为了提高多尺度特征抽取和融合的效率,我们提出了MSDConv,它可以有效地捕获图像的多尺度特征,而不需要添加任何额外的参数和计算成本。MSDConv的结构如图1(b)所示。MSDConv的灵感来自Xcept[17],但与之不同。MSDConv不仅遵循了[17]中提出的空间和信道相关系数可以充分解耦的结论,而且还额外实现了高效的空间相关性扩展策略。具体而言,设X为输入特征图,公式,其中C、H、W分别表示特征图的通道数、特征图的高度和特征图的宽度。使用香草卷积生成特征图的过程可以表示为公式(1)其中公式为输出特征图,公式表示香草卷积内核。K表示内核大小。C表示输入特征图的通道数。C分别表示输出特征图的通道数。c和c分别表示一个输入和输出特征图的一个通道的索引。i和j表示卷积内核的空间位置。h和w表示输入特征图的空间位置。根据(1),当使用vanilla卷积学习特征时,P表示的参数个数和Q表示的计算成本表示为公式2,公式3为了减少vanilla卷积运算的参数冗余,提出了一种空间和通道相关性解耦的新颖卷积运算。具体来说,为了获得C’特征图,我们首先使用点卷积生成C’/2原生特征图。这样,原生特征图的生成没有任何空间相关性的映射,只有通过降维获得紧密的通道相关性。在第二阶段,我们使用循环多尺度卷积来扩展原生特征图的空间相关性,从而获得辅助特征图。如图1(b)所示,循环多尺度卷积是通过与膨胀率如(1,3,6)的组合来实现的。值得注意的是,循环多尺度卷积在同一卷积层将不同的膨胀率扩展到相应的卷积内核。这确保了MSDConv可以仅通过一个卷积神经网络捕获变化对象的多尺度特征,并通过层的迭代来融合多尺度特征。类似于(1),膨胀率为d的循环多尺度卷积可以表示为公式4,其中公式是循环多尺度卷积,其中cth卷积内核与特征图X的cth通道计算得到cth输出特征图Y’。事实上,我们使用点卷积进行通道之间的聚合和循环多尺度卷积来生成特征图,Pm表示的参数数量和Qm表示的计算成本表示为公式5,其中Qm是1×1点卷积和循环多尺度卷积的计算之和。与香草卷积相比,所提出的MSDConv可以有效地减少参数和计算的数量,如下所示:公式7其中r表示MSDConv和香草卷积所需的参数和计算数量的比率。从(7)开始,所提出的MSDConv的参数仅为香草卷积的[1/(2K2)+1/(2C)]。同时,MSDConv可以捕获变化对象的多尺度特征。据我们所知,本文是第一个通过设计紧凑卷积内核来捕获和融合变化对象的多尺度信息的研究。

C.空间-光谱特征合作
在III-B节中,我们提出了MSDConv来获取变化对象的多尺度特征。但是,如果辅助特征图直接与原生特征图融合,空间-光谱依赖关系将被忽略。结果,我们设计了一种SSFC策略来对空间-光谱依赖关系进行建模,以获得更丰富的特征。在认知科学中,人脑通过有意或无意地关注对象来产生注意力。意图和目标之间的对应关系基于注意力机制中的三个元素:查询、键和值。我们可以将查询理解为意图,将键理解为目标。注意力机制是找到查询和键之间的关系并将其映射为值来细化特征图。为了得到查询和键之间的注意力关系,我们受到Nadaraya-Watson核回归[56],[57]的启发,设计了一个Gaussian-kernel-based的SSFC策略。Nadaraya-Watson核回归用注意力机制的三个元素表示为公式8其中Y~表示注意力机制的输出特征图,n表示特征向量维度,F(•)为核函数,Q、K、V分别表示查询、键、值。如果这里采用高斯核函数,Nadaraya-Watson核回归可以表示为公式9,公式10。根据(8)-(10),一个更广义的注意力机制模型定义为公式11其中(Q, K)表示通过对查询和键之间的关系建模得到的注意力权重,N(•)表示规范化函数。因此,我们可以将Nadaraya-Watson核回归扩展到更高的dimen角张量,然后使用高斯核函数设计SSFC策略如下:公式12在实际应用中,K和V均为输入特征图X∈RC×H×W,其中C、H和W分别表示特征图的通道数、特征图的高度和特征图的宽度,Q为通道维数XλRC×1×1的均值,σ2为通道维数方差,σ2的值影响特征图的丰富度,σ2的值越大意味着特征图的方差越大,对应的是特征图中更丰富的上下文信息。为了使注意力权重为正促进,我们在原始注意力分数的基础上添加1/2并使用Sigmoid函数对其进行归一化以获得注意力权重。最后,将获得的注意力权重与输入特征图X(值)相乘,得到输出特征图e Y。SSFC策略如图2所示。
我们提出的SSFC策略可以利用SSFC的思想生成3-D注意力权重。通过对空间-光谱相关性进行建模,SSFC可以增强遥感图像中变化物体的边缘和内部细节。与现有的注意力机制[37]、[50]相比,我们提出的SSFC不添加任何可学习的参数,更简单、更高效。最后,我们将SSFC嵌入到MSDConv中,如图1(b)所示。
在这里插入图片描述
图2.所提出的SSFC策略概述。该策略与流行的二维注意力机制明显不同,因为它不需要任何可学习的参数,并且仅通过启发式计算在特征图上生成三维注意力权重。

D.构建超重CD网络1)架构:我们通过构建基于U形网络的非权重共享伪Siamese结构来改进流行的Siamese结构。非权重共享编码器在学习特征编码权重方面允许更大的灵活性。与权重共享结构相比,我们的网络仅增加了0.33 M的参数。我们在第五节中进行了伪Siamese和Siamese结构之间的比较实验。与其他复杂网络设计相比,我们提出了一个使用伪Siamese结构的简单特征抽取,仅依赖于差异图像和跳过连接进行时差信息交互。2)编码器:我们使用伪Siamese网络提取双时态图像特征。具体来说,USSFC-Net的编码器使用五个连续的下采样步骤,即0-4阶段。在第0阶段,我们使用香草卷积来确保变化对象的足够边缘和纹理信息。在范围阶段,我们使用所提出的带有SSFC的MSDConv来高效地对语义信息进行编码。我们在第4阶段将特征图通道数设置为512,以提取足够的语义信息,同时保持网络的轻量级。3)解码器:为了恢复编码器生成的语义特征,我们设计了一个简单但高效的解码器来获得变化图。解码器使用与编码器近似对称的结构,需要四个连续的解码器来实现特征图上采样。在每个阶段结束时,我们使用所提出的MSDConv来恢复变化对象的特征。最后,使用1×1卷积和激活来获得预测的变化图。4)详细信息:根据上述设置,我们构建了一个以SiameseU-Net为脊骨的超轻量级CD网络。与SiameseU-Net不同的是,我们还通过考虑CD任务对其进行了一些改动。首先,我们使用非权重共享的二分支网络作为编码器,这使得特征抽取更加灵活。其次,我们在网络的每个阶段将特征图的通道数减半,以使网络更加紧凑。具体网络结构如表I所示。5)损失函数:遥感影像CD本质上是一个像素级分类任务。在网络训练阶段,我们使用二元交叉熵损失来优化网络权重。形式上,损失函数定义为公式13,其中Ns表示训练样本的总数,yi表示第i个样本的标签,xi表示第i个样本的预测值。

在这里插入图片描述

结论

在本文中,我们提出了一种用于遥感图像中CD的USSFC-Net。所提出的USSFC-Net通过引入MSDConv和SSFC解决了当前CD的主要问题。具体来说,MSDConv可以通过设计通信协议结构来有效地提取变化对象的多尺度特征。SSFC策略通过对spa和频谱特征进行协同编码来有效地捕获全局上下文信息以细化特征,并且不需要任何附加参数。我们在三个CD公共数据集上测试了USSFC-Net。实验结果表明,我们的方法在CD准确率、参数和FLOPs方面优于基于CNN或Transformer的其他竞争方法。值得注意的是,随着深度学习模型的普及,产业部署已成为当前深度学习ing模型实际应用的重要挑战。希望所提出的USSFC-Net能够有效地解决在低资源设备上部署遥感图像CD的挑战,提高CD准确率,同时实现模型的有效简化。

  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值