B2CNet:一种渐进式变化边界到中心细化网络,用于多时相遥感图像变化检测

今天看到一篇研究图像变化检测的文章B2CNet,提出了一种名为B2CNet的边界到中心精细化的变化检测网络,无需额外的边缘提取算法或边界标签,仅通过简单操作和常规标签就能激活边界特征,指导模型达到更好的变化检测效果。解决了对边界信息利用不足和精细检测边界不充分的问题。通过多个感受野聚合低层次纹理信息与高层次语义信息,增强了变化区域的内部完整性,弥补深层特征中细节信息的丢失问题。这里记录自己的整体阅读记录,感兴趣的话可以参考一下,如果想要阅读原文,可以来这里,如下所示:

摘要——变化检测是分析地理特征变化信息的重要方法。然而,现有的深度学习特征差异方法往往导致详细信息的丢失。特征差异可能由光照或几何变化等因素引起,而非实际变化区域,导致变化检测不准确。这导致细粒度边界检测效果差和内部孔洞问题。为缓解这一问题,我们提出了一种新颖的变化检测网络,该网络受变化边界意识的引导,并结合了边界到中心的概念。我们的网络引入了一个变化边界感知模块,以捕捉变化区域的边界信息。该模块增强了边界,减少了特征差异中的噪声影响,并提供了丰富的上下文信息,以提高变化边界的准确性。此外,我们提出了一种基于时空特征的双时相特征聚合模块(BFAM)。BFAM聚合了多个感受野特征,并补充了纹理信息。这两个模块都利用了SimAM注意力机制来增强特征的细粒度性质。此外,我们引入了一个深度特征提取模块,以提取深度特征并在解耦过程中最小化信息损失。本文提出的变化检测网络受变化边界感知引导,逐步整合语义和空间纹理信息,以细化边缘并增强内部完整性。B2CNet的性能和效率已在四个公开的遥感图像变化检测数据集上得到了验证。通过广泛的实验,证明了所提出方法的有效性。例如,在LEVIR、WHU、SYSU和HRCUS数据集的IOU方面,与基线相比,分别提高了1.89%、2.86%、4.70%和3.79%。

关键词——双时相特征聚合,变化边界感知,变化检测,遥感图像。

一、引言

变化检测(CD)在监测和分析特定地理区域的时序变化中起着至关重要的作用。随着遥感技术的进步,遥感卫星的成像能力和质量得到了极大的提升[1]。高分辨率图像提供了有关地球表面的宝贵信息,并在环境监测[2]、城市规划[3]、灾害管理[4]和自然资源管理[5]等领域有着广泛的应用。然而,由于角度、光照、季节变化等因素,遥感图像的变化检测是一项具有挑战性的任务。

早期的应用可以追溯到基于像素的变化检测方法[6]。基于像素的方法可以具体分为基于代数的方法、基于变换的方法和基于分类的方法。基于代数的方法通过数学运算(如图像差异[7]、图像比率[8])分析多时相图像中像素的强度和变化方向。基于变换的方法通过变换或分析原始图像(如主成分分析(PCA)[9]、翘曲帽变换[10]和变化向量分析[11])来提取有效的差异特征。基于分类的方法则专注于对遥感图像中的像素进行分类以检测变化。常用的机器学习技术包括支持向量机[12]、随机森林[13]和K近邻[14]。一般来说,基于像素的方法更容易受到光照条件、阴影和噪声等因素的影响,导致高误检率和漏检率。

近年来,深度学习技术的快速发展在各个领域展示了其优越性[15, 16]。深度学习的强大特征学习和泛化能力也使其适用于各种遥感图像变化检测[17, 18],如多源、多模态和多时相的变化检测。基于卷积神经网络(CNN)[19, 20, 21]、递归卷积神经网络(RNN)[22, 23]、图卷积神经网络(GCN)[24, 25]和基于Transformer的方法[26]在当前的变化检测技术中被广泛使用。它们在自主特征学习和大规模遥感数据的处理中起着至关重要的作用。

与传统变化检测方法相比,深度学习方法具有更高的准确性和鲁棒性。深度学习模型能够自动学习数据的特征表示,无需依赖领域专家手动提取特征。最近的研究,包括EGRCNN[23]、MFIN[27]和EGCTNet[28],强调了边缘信息在增强变化区域细粒度边界中的重要性。这些研究成功地将边缘特征作为先验知识集成到变化检测网络中。边缘通常是图像中物体或场景之间的边界或边缘轮廓。变化区域是两个不同时期的遥感图像中发生变化的区域。边缘信息在变化检测中起着重要作用,因为变化通常会导致物体或场景边界的改变。通过提取和分析边缘信息,可以帮助识别和定位变化区域。边缘信息可以提供有关变化区域形状、位置和边界特征的线索。因此,准确提取和利用边缘信息可以帮助提高变化检测的性能,减少误检和漏检。然而,大多数方法往往忽略了边缘信息与变化信息之间的关系。这些方法仅将提取的边缘信息作为预测结果的补充,忽略了边缘信息在描述变化区域(如形状、位置和边界特征)中的作用。此外,这些方法总是引入从标签中提取的变化边界标签作为额外的输入或监督,以帮助提取边界特征,这可能会导致变化区域内部特征的丢失,并降低模型的变化特征提取能力。

对于CD任务,目前面临两个主要挑战。第一个是由于双时相图像中的光照条件和噪声差异导致的伪变化引起的误检问题。第二个是由于细节信息丢失和语义信息不足导致的漏检问题,如细粒度边界不足和内部孔洞。我们更全面地利用边缘信息来解决上述问题。本文提出了一种基于变化边界感知引导的变化检测网络。为了提高检测边缘的精度并缓解伪变化的影响,我们引入了一个带有监督的变化边界感知模块(CBM)分支。所提出的CBM增强了差异边缘特征并改进了其表达。通过监督CBM分支,增强的边缘特征有效地勾勒出变化区域的轮廓,显著区分背景区域,并为其他分支的学习提供指导。为了提高变化区域内部特征的完整性,我们设计了一个基于双时相特征聚合模块(BFAM)的空间-时间纹理特征聚合分支。该分支考虑了多个感受野信息,并利用3D注意力机制动态调整低级和高级语义信息的耦合。为了增强网络的特征提取能力,我们引入了深度特征提取模块(DFEM)。DFEM利用多个残差操作深度融合CBM和BFAM的特征,提取更深的高级变化特征。此外,它利用高级特征指导BFAM中低级特征的聚合。本文的主要贡献如下:

  1. 我们设计了B2CNet,一种基于变化边界到中心细化的变化检测网络。无需使用边缘提取算法和边界标签来帮助提取边界特征。只需简单的操作和常规标签即可激活边界特征,并指导模型实现更好的结果。

  2. 针对边缘信息利用不足和细粒度检测边界不足的问题,我们提出了一种CBM分支,该分支可以通过简单的操作大致提取变化区域的边界信息。通过使用常规标签中的准确变化区域信息进行细化,确保准确提取变化区域边界。该模块提高了边界的细粒度,并缓解了伪变化的影响,指导其他分支的信息聚合。

  3. 针对内部孔洞问题,我们提出了BFAM,该模块聚合了多个感受野中的低级纹理信息和高级语义信息。该模块增强了变化区域内部的完整性,并补偿了更深特征中细节信息的损失。

  4. 针对复杂场景中高级语义信息不足的问题,我们提出了DFEM,该模块通过增强分支间特征信息的融合来提取更深的高级语义信息。该模块增强了网络的特征提取能力,并加强了分支间的特征交互,以提高解耦效率。

本文的其余部分组织如下。第二部分简要回顾了相关工作。第三部分描述了所提出框架的具体细节。第四部分在公共数据集上展示了评估结果,并与当前最先进的算法进行了比较。第五部分讨论了所提出的方法,最后,第六部分总结了本文。

二、相关工作

A. 基于深度学习的CD方法

深度学习网络具有分层架构。这一特性导致了在变化检测任务中使用孪生网络架构。在这些架构中包括跳跃连接[29]可以提高预测准确性。例如,跳跃连接的全卷积网络[19](FC-EF[19]、FC-Siam-Diff和FC-Siam-Conc)通过不同的方法(如时空特征、特征差异和特征拼接)提取深度信息并进行预测。Fang等人[30]提出了一种集成密集跳跃连接的孪生网络(SNUNet),通过集成多尺度特征缓解了深度和局部信息的损失。一些研究提出了不同的模型以增强变化检测性能。例如,Jiang等人[31]提出了一种联合学习框架(SSANet),该框架结合了融合和差异提取分支以增强上下文信息聚合。Wen等人[32]开发了RS-CADM模型,该模型结合了去噪扩散概率模型(DDPMs)和自适应校准技术以增强变化信息的提取。还提出了双任务约束卷积网络模型[33, 34],以同时完成变化检测和语义分割。此外,研究人员单独或联合使用CNN和Transformer。例如,Chen等人[35]提出了一种双时相图像Transformer网络(BIT),该网络捕捉和建模两个不同时期图像之间的时空上下文信息,理解图像局部内容与全局场景之间的关系。Feng等人[36]、Tang等人[37]和Ji等人[38]分别使用CNN和Transformer作为特征提取网络(ICIFNet、WNet和PASSNet),促进了局部提取的CNN特征与全局提取的Transformer特征之间的交互,同时保留各自的特征。

然而,基于Transformer的变化检测(CD)方法的使用导致了时间复杂度的增加。此外,集成边缘信息的CD方法往往忽略了边缘信息描述变化区域的能力以及由于边界提取导致的变化区域内部信息损失。本研究旨在通过利用边缘增强的差异特征和集成多个感受野的时空特征来解决这些挑战。

B. 基于注意力机制的CD方法

注意力机制[39]在各种视觉任务中引起了广泛关注,包括图像融合[40, 41]、检测[42, 43]和语义分割[44],突显了其在该领域的重要性。在CD任务中,传统方法主要关注像素级比较,忽略了像素之间的语义关系和上下文信息,导致检测精度低。然而,注意力机制能够捕捉输入序列中的位置关系,为遥感变化检测提供了新的机会。它能够有效地捕捉全局关系,并从全局角度将有限的能量集中在重要位置,从而提供更有用的信息。常见的基本注意力机制有三种,即自注意力[45]、空间注意力机制(SAM)[46]和通道注意力机制(CAM)[47]。目前,许多变化检测网络基于基本注意力机制的增强版本来进一步强调变化特征。例如,SNUNet[30]提出了ECAM,以自动选择和关注不同组之间更有效的信息。DSIFNet[48]在通道-空间维度上交替使用CAM和SAM来细化融合特征。交叉注意力机制也被广泛应用于变化检测中,该机制基于自注意力考虑不同输入序列之间的关系。研究人员探索了将自注意力和交叉注意力机制与CNN结合,以提取更准确的遥感变化检测特征。HANet[49]实现了一个HAN模块,能够分别从列和行维度捕捉长期依赖关系。DMINet[50]将自注意力和交叉注意力结合到一个模块中,以获得全局注意力分布进行信息交互。受自注意力机制的启发,MFIN[27]设计了特征交互模块,以交互处理两幅图像的特征信息。SARASNet[51]采用自注意力和交叉注意力特征,有效地检测不同尺度物体的变化。HDANet[52]引入了一个多分辨率并行结构,并设计了一个创新的差异注意力模块,以保留空间和变化信息。此外,SAM和CAM关注单一维度,可能缺乏对特征的细粒度关注。受神经科学理论的启发,Yang等人[53]设计了一种无参数的3D注意力机制(SimAM),该机制优化能量函数以确定每个神经元的重要性,并实现更准确的特征聚焦。本文引入了SimAM注意力机制以增强特征的细粒度。

C. 边缘辅助的CD方法

精细变化检测任务是目前的热点话题,变化检测的细粒度边界是一个持续存在的问题。为进一步缓解这一问题,许多领域专家开展了关于边界特征提取和保留的工作。常见的边缘提取算法包括Canny算法、Sobel算法和Laplacian算法。Zhang等人[27]设计了一个细节特征引导模块,使用Laplacian算子从标签中提取多尺度边缘特征,并将其插入主干网络中学习细节特征。另一种方法是增强CD网络的边缘特征保留。Bai等人[23]提出了边缘引导的变化图估计,该方法不仅预测变化的建筑物及其边缘,还直接将边缘特征集成到判别特征中,以进一步提高预测结果的质量。Xia等人[28]设计了一个边缘检测分支,并使用边缘变化图约束输出变化掩码。

三、方法论

在本节中,我们首先介绍了所提出方法的概述。然后,我们详细介绍了所提出的CBM、BFAM和DFEM。最后,我们提供了混合损失函数。

A. B2CNet的整体结构

如图1所示,我们提出的B2CNet基于编码器-解码器架构,由四个部分组成:多层次特征提取、变化边界感知模块(CBM)、BFAM和DFEM。编码器采用预训练的CNN模型(ResNet18[29])作为特征提取网络。解码器由CBM、BFAM和DFEM三个分支组成,如图1右侧所示。

                                                       图1. 提出的B2CNet架构

首先,通过将两个不同时期的遥感图像输入特征提取网络,我们可以获得不同尺度的特征向量{Fn, fn, n∈(1,2,3,4)},如图1左侧所示。设CBM、BFAM和DFEM的输出特征向量为{fchm^i, fbfam^i, fdfem^i, i∈(1,2,3,4)}。我们将特征向量F4, f4输入CBM以获得边缘增强的差异特征fchm^1。随后,特征{Fn, fn, (n=1,2,3), fchm^i-1}作为CBM的输入{fchm^i, (i=2,3,4)}。我们通过CBM提取边缘增强的差异特征,该特征具有更强的边缘信息表示。因此,它可以促进变化边缘信息的保留,并更好地描述变化区域。最后,CBM分支通过分类器获得额外的预测结果。CBM分支中的边缘特征表达更强,导致额外的预测更关注边缘预测。此外,它保留了变化区域的一些内部信息,与仅保留边缘信息相比,减少了有价值信息的损失。额外的预测受到监督,并通过损失函数计算变化区域信息与地面真值之间的差异。基于监督对网络进行反向传播,并更新生成的变化区域信息的梯度。在训练阶段通过迭代优化,生成的结果逐渐改善,定位变化区域和表达变化区域特征的能力得到增强。它促使CBM分支关注更准确的变化特征,指导其他分支更好地解耦变化区域信息,并加深整体网络的解耦。将F4, f4输入BFAM以获得多个感受野的纹理细节聚合特征fbfam^1,BFAM的输入特征{fbfam^i, i∈(2,3,4)}包含特征{Fn, fn, (n=1,2,3), fdfem^i-1, fbfam^i-1}。高级语义特征用于指导从低级信息到高级信息的过渡。对于DFEM分支,输入特征{fchm^i, fbfam^i, i∈(1,2,3,4)}以获得高级变化语义特征{fdfem^i, i∈(1,2,3,4)},并增强网络的特征提取能力。最后,该分支通过分类器输出模型的最终结果,并在训练阶段使用GT监督最终预测结果。

上述完整的结构是B2CNet。此外,我们提出了B2CNet_S,这是一个轻量级版本。B2CNet_S移除了特征{F4, f4, fchm^1, fbfam^1, fdfem^1}。

B. 变化边界感知模块

边缘信息和特征差异操作的结合可以有效地描绘变化区域的边界和轮廓。为此,我们提出了一种CBM,通过边界信息获取变化区域,并促进变化区域边界信息的保留。模块结构如图2所示。

                                                              图2 CBM详情

边缘信息作为有价值的先验知识,通过捕捉物体的精细结构和复杂形状来辅助变化检测。然而,不加区分地提取边缘信息可能会在非变化区域引入无关信息。相反,仅考虑变化区域中的边缘信息可能会导致内部特征的丢失。为缓解这一问题,我们提出在执行特征差异之前提取和增强双时相特征的边界信息。这种方法使我们能够通过特征差异捕捉边界信息的差异和差异特征。

在我们的方法中,我们将特征提取网络的特征(fi)输入CBM,以提取和增强双时相特征的边缘信息。首先,使用SimAM注意力[53]机制对第一级输入特征进行预处理,以识别值得注意的区域。SimAM注意力机制是一种基于一些著名神经科学理论的无参数3D注意力机制,提出优化能量函数以发现每个神经元的重要性。为了提高注意力,模型需要评估每个神经元的重要性。信息丰富的神经元通常表现出与周围神经元不同的放电模式,并抑制后者。重要性可以通过测量神经元之间的线性可分性来判断。因此,我们需要更多关注具有空间抑制效应的神经元。其最小能量函数定义如下:

随后,通过池化、减法和卷积提取边缘特征。这是因为边缘通常具有较高的梯度值,应用平均池化有助于平滑特征。减法操作涉及从原始特征中减去平均池化特征,突出边缘区域。随后,特征通过1×1卷积和Sigmoid激活函数进行增强,以增强边缘特征的对比度和显著性。边缘特征通过乘法和加法进一步增强。最后,再次使用SimAM注意力机制感知显著区域,得到最终特征。这些操作的方程如下:

其中SimAM表示注意力机制,AP表示3×3平均池化层,Conv1×1表示使用Sigmoid作为激活函数的卷积块(1×1卷积,BN,Sigmoid)。

                                                            图3 BFAM详情

特征差异作为一种直接操作来推导差异特征,容易受到噪声和信息损失的影响。在变化检测任务中,由于双时相特征的固有相似性,可能会导致变化区域边缘模糊。为缓解这些问题,我们在执行特征差异之前增强双时相特征的边缘。这种边缘增强的特征差异提供了更丰富的上下文信息,有助于定位变化区域。我们对不同级别的特征重复此操作,获得每个级别的边缘增强特征。随后,对边缘增强特征进行特征差异处理。我们使用SimAM重新计算值信息。方程如下:

当然,上述方法定位的变化区域并不完全准确。因此,我们在解耦分支上应用监督,包括CBM。这有助于纠正定位信息,确保准确识别变化区域。此外,我们利用定位的变化区域作为其他分支解耦过程的指导。

C. 双时相特征聚合模块

低级纹理信息包含基本的图像细节和局部特征,如纹理、颜色和灰度。这些信息捕捉图像中的小变化。另一方面,双时相特征由于其固有性质,既保留了丰富的细节,又保留了空间关系。为了增强变化检测的全面性,我们提出了一种BFAM,逐步结合低级细节特征和多层次特征。过程如图3所示。

为了提取细节特征并保持空间关系,我们对输入的双时相特征(Fi, fi)进行通道拼接。我们使用四个并行的带不同膨胀率(膨胀=1,2,3,4,组=c)的3×3分组卷积来提取特征,其中c表示通道数。这种方法通过不同的感受野捕捉各种大小的变化区域,同时使用分组卷积保留特征的空间完整性。随后,四个卷积输出进行通道拼接,并使用1×1卷积块进行通道下采样。这一步骤进一步使用SimAM注意力机制[53]细化特征。方程如下:

其中d表示膨胀率,g表示组,Concat表示通道拼接。

考虑到双时相特征中存在的共享特征。它提供了更精确的低级纹理信息。我们分别使用SimAM注意力机制计算不同时期特征的像素级特征的重要性。然后,我们将提取的共性特征与各自的时期特征(Fi, fi)相乘,以获得它们的相似性。方程如下:

最后,我们通过利用BFAM集成多层次特征。这一集成旨在通过结合多个感受野增强变化区域的空间纹理信息。此外,我们结合这些特征与高级语义信息,以获得更详细和全面的变化理解。

D. 深度特征提取模块

高级语义特征在准确定位和识别变化区域中起着至关重要的作用。另一方面,详细的纹理特征提供了更精确的边界和纹理信息。我们提出的DFEM旨在结合两者以学习更深的高级语义特征,如图4所示。

                                                                    图4 DFEM详情

DFEM结合了从CBM获得的变化区域信息和从BFAM获得的空间细节纹理信息。我们对来自上层CBM(fchm^i)和BFAM(fbfam^i)的输入特征进行拼接和求和。为了减少计算量,我们使用1×1卷积将通道数减半。此外,为了保持信息完整性,我们使用残差拼接将其与组合信息相乘。接下来,我们使用3×3卷积块提取深度特征。为了最小化信息损失,我们在应用Relu之前使用残差拼接。

最后,我们将前一层CBM的输出特征(fchm^i)与深度特征相加。然后将变化边界和高级语义特征的完整特征传递给BFAM。这确保了变化边界和高级特征由聚合模块引导。同时,通过模块内的多个残差操作最小化特征信息损失。方程如下:

输出 = Conv3×3(Relu(BN(Conv3×3(fdem^i)))) (18)

其中i表示不同深度的特征,Conv、BN和Relu分别表示卷积层、批归一化和Relu激活函数。f_c^i是通道维度变换的中间操作,f_dem^i是提取的高级特征。

因此,我们将提取的高级语义特征与从BFAM获得的低级详细纹理特征相结合。这一结合旨在增强图像表征,并提高对图像中复杂场景的理解和分析。

E. 损失函数

在变化检测领域,不变像素的数量与变化像素的数量之间存在显著的不平衡。为了减弱样本不平衡的影响,我们使用了一种混合损失函数[54],结合了加权交叉熵损失和Dice损失,定义如下:

我们的网络架构受CBM引导进行变化检测。因此,CBM分支的准确性直接影响后续深度变化特征提取。为了缓解这一问题,我们使用DFEM分支进行特征提取,并通过预测头生成预测。此外,我们对CBM分支提供额外的监督。我们使用完整的地面真值进行监督,包括监督变化区域的边界。CBM分支中更强的边缘信息表达有助于准确边缘预测。此外,完整的监督促进了变化区域内部特征信息的保留,最小化了信息损失。因此,我们的总训练损失可以表示如下:

四、实验与结果

A. 数据集
  1. LEVIR-CD[55]:我们研究中使用的大型建筑变化检测数据集由637对高分辨率(0.5米/像素)遥感图像组成。每幅图像的大小为1024×1024。研究区域覆盖美国德克萨斯州的20个不同城市地区,时间跨度从2002年到2018年,重点关注建筑变化。数据集包括各种类型的建筑和土地覆盖变化,如别墅、高层公寓、小型车库和大型仓库。在训练过程中,我们将1024×1024的图像分割成256×256大小的较小图像。最终,我们获得了7120对图像的训练集、1024对图像的验证集和2048对图像的测试集。

  2. WHU-CD[56]:该数据集主要关注2012年新西兰基督城地震后的建筑损坏分析。数据集由一对高分辨率(0.2米/像素)遥感图像组成,原始图像大小为32507×15354。在我们的实验中,我们将图像分割成256×256大小的图像块,分割过程中没有重复区域。训练、验证和测试的比例分别为8:1:1。最终,我们获得了6096对图像的训练集、762对图像的验证集和762对图像的测试集。

  3. SYSU-CD[57]:我们研究中使用的SYSU数据集由20000对高分辨率(0.5米/像素)遥感图像组成。每幅图像的大小为256×256。数据集包括香港地区的高层建筑、港口和郊区变化等地面物体。在训练过程中,我们使用研究人员提供的标准数据分割。训练、验证和测试的比例分别为6:2:2。最终,我们获得了12000对图像的训练集、4000对图像的验证集和4000对图像的测试集。

  4. HRCUS-CD[58]:高分辨率复杂城市场景BCD(HRCUS-CD)数据集整合了多个时间跨度和多种建筑变化类型。时间跨度分别为2019年至2022年和2010年至2018年。该数据集样本量大,包括城市村庄、植被扰动、高层公寓、工业园区、文化旅游设施和其他大型连续建筑等多种复杂环境场景。数据集包含裁剪的11388对高分辨率遥感图像,分辨率为0.5米,大小为256×256像素,超过12000个标记的变化实例。

B. 评估指标

为了验证所提出网络的性能,我们使用六个指标来评估预测结果与真实变化之间的相似性,包括精确度(Pre)、召回率(Rec)、F1分数(F1)、交并比(IOU)、总体准确率(OA)和Kappa系数(Kappa)。这些指标可以分别定义如下:

C. 实施细节

为了确保公平性,所有比较方法都在同一设备上进行训练和测试。我们提出的网络模型采用pytorch架构,在具有24GB内存的NVIDIA GeForce GTX3090 GPU上进行训练和测试。使用AdamW优化器[59]最小化损失,权重衰减设置为5e-4。学习率使用StepLR更新,初始学习率(initial_lr)为5e-4,步长为8,gamma(γ)为0.5,如(30)所示。批量大小为16,我们训练模型100个epoch直到收敛。

D. 与最先进方法的比较

为了全面评估我们提出的模型的性能,我们将其与三类最先进的变化检测方法进行了比较。这些类别包括基于卷积神经网络的方法(FC-EF[19]、FC-Siam-Conc[19]、FC-Siam-Diff[19]和FresUNet[33])、基于注意力机制的方法(DSIFN[48]、SNUNet[30]、ICIFNet[36]、DMINet[50]和CGNet[60])和基于Transformer的方法(BIT[35])。具体细节如下。

  1. FC-EF[19]:基于UNet结构的全卷积高级融合的单流网络模型,通过跳跃连接同时获取语义信息和空间细节。

  2. FC-Siam-Diff[19]:基于孪生网络的模型框架,直接计算编码器中相同尺度的特征差异的绝对值,并基于所有级别的差异拼接预测变化区域。

  3. FC-Siam-Conc[19]:基于孪生网络的框架,通过通道连接融合两幅图像的特征,并基于融合特征最终预测变化区域。

  4. FresUNet[33]:全卷积双任务变化检测网络,不仅检测变化区域,还进一步检测变化区域的语义。在FC-EF的基础上,添加残差块以促进网络获取更深层的特征信息。

  5. DSIFNet[48]:深度监督的孪生网络。从通道和空间的角度完美结合异构特征进行差异判别。通过深度监督进一步增强差异判别能力。

  6. SNUNet[30]:密集跳跃连接的孪生网络,通过集成多尺度特征缓解神经网络中深度和局部信息的损失。使用通道注意力机制增强值特征的表达。

  7. BIT[35]:双时相图像Transformer网络,引入Transformer以有效捕捉和建模两个不同时期图像之间的时空上下文信息,并理解图像局部内容与全局场景之间的关系。

  8. ICIFNet[36]:分别使用CNN和Transformer作为特征提取网络,CNN提取的局部特征与Transformer提取的全局特征进行交互,同时保留各自的特征。

  9. DMINet[50]:一种孪生网络,在获得差异特征之前交互双时相特征,结合自注意力和交叉注意力引导每个输入的全局特征分布。促进内在层次表示之间的信息耦合。

  10. CGNet[60]:一种解决传统U-Net结构变化特征表达不足问题的方法,使用深度特征生成变化图作为先验知识,指导多尺度特征融合。

我们方法的定量结果与最先进方法的比较结果如表I和表II所示。我们的B2CNet在四个数据集上取得了显著的结果,可以从更高的F1、IOU、OA和Kappa指标中看出。此外,众所周知,随着模型编码的加深,特征通道的数量呈指数增长,导致模型参数显著增加。为了缓解这一问题,我们对模型进行了一些修改以提高模型效率。具体来说,我们移除了最终编码层中特征通道为512的特征,并相应调整了解耦部分,消除了第一阶段。因此,所提出的三个模块被共同定义为一个阶段,从而得到了我们模型的轻量级版本。重要的是,B2CNet_S在所有四个数据集上也取得了优异的性能。定性上,图5-7展示了我们方法与现有最先进方法的定性可视化结果。为方便起见,使用几种颜色来更清晰地可视化结果,其中TP(白色)为真阳性,TN(黑色)为真阴性,FP(红色)表示假阳性,FN(绿色)表示假阴性。

  1. LEVIR-CD数据集上的实验结果:表I展示了我们提出的B2CNet方法和几个比较实验在LEVIR-CD数据集上的结果。表中显示,B2CNet仅次于CGNet,在五个评估指标(包括Rec、F1、IOU、OA和Kappa)上取得了显著的结果。轻量级模型在所有指标上也保持了优异的分数。具体来说,B2CNet在IOU方面相对于DSIFNet、SUNNet、BIT、ICIFNet和DMINet分别提高了1.22、1.96、2.32、1.57和0.77。轻量级版本B2CNet_S也分别提高了0.81、1.55、1.91、1.16和0.36。这些结果表明,与其他实验方法相比,所提出的方法在CD方面表现出显著的性能。

图5展示了不同方法在LEVIR-CD数据集上的结果。具体来说,图5(1)-(4)显示了发生显著或密集变化的建筑物,图5(5)-(7)显示了受光照条件或遮挡影响的大型建筑物,图5(8)-(10)显示了在原有基础上新建的建筑物。在图5(1)-(4)中,其他方法可以大致获得小型建筑物变化的变化区域,但边缘信息损失很大。相反,我们的方法的预测结果不仅可以有效检测小型建筑物,还可以保留更多细节信息,变化区域的边界更完整。在图5(5)-(7)中,可以看出对于大型建筑变化,大多数方法的预测结果由于光照角度在阴影部分产生了不同程度的损失。然而,在图5(5)中,右上角的红色区域表示检测错误,但实际上对应于正确识别的建筑变化。这表明大多数网络在一定程度上表现出一定的泛化能力。相比之下,我们的网络预测更完整,表现出一定的抗干扰能力。从图5(8)可以看出,关于原有建筑对变化检测的影响,我们的方法避免了原有建筑的误检,更准确地识别了变化区域。总之,定性比较结果与表I中显示的定量结果一致。这些图像显示了B2CNet的可行性,产生了更少的检测错误和更准确的边缘预测。

  1. WHU-CD数据集上的实验结果:表I展示了我们提出的B2CNet方法和几个比较实验在WHU-CD数据集上的结果。我们的方法在所有指标上继续取得了最佳性能。值得注意的是,我们的方法在Rec、F1分数、IOU、OA和Kappa方面分别比其他实验方法的最高分数提高了2.21、0.25、0.45、0.01和0.26分。尽管轻量级版本在性能上相对于更深的模型有所下降,但仍保持在顶级表现中。这种性能下降归因于模型深度较浅,导致数据集中大型建筑物的部分语义信息丢失。然而,我们的方法在精确度和召回率之间取得了良好的平衡,通过变化边界感知提高了召回率,同时保持了卓越的精确度。这使我们能够在确保准确性的同时获得更高的F1分数。

  2. SYSU-CD数据集上的实验结果:表I展示了我们提出的B2CNet方法和几个比较实验在SYSU-CD数据集上的结果。SYSU-CD数据集由于其更高的多样性、更大的数据量和更复杂的变化场景而更具挑战性。表中显示,B2CNet在所有其他实验方法中表现最佳,并在四个评估指标上取得了最高分数。值得注意的是,我们的方法在F1分数、IOU、OA和Kappa方面分别比其他实验方法的最高分数提高了1.38、2.00、0.47和1.65分。这些结果表明,与其他实验方法相比,B2CNet在处理复杂和多样化的变化场景时具有更高效的特征提取能力。

图7展示了不同方法在SYSU-CD数据集上的结果。图7(1)-(4)显示了由于季节因素和郊区道路扩张导致的植被变化。图7(5)-(8)描绘了复杂城市环境中由于内部改建引起的变化。图7(9)和(10)显示了由于光照强度和水位变化导致的码头和河流的变化。由于该数据集场景的复杂性,预测结果表现出大量的误检和漏检。从图7(2)和(8)可以看出,其他方法有大量的误检和漏检,变化区域边界的预测能力有限。图7(4)和(5)大致确定了变化区域,但边界处有明显的检测错误。尽管如此,我们的视觉预测图总体上表现出更优越的性能,突显了B2CNet在面对复杂场景时的鲁棒性。如图7(7)所示,同一位置在不同时间呈现不同的颜色,这可能导致一些额外的变化而不是真实的变化。许多方法无法排除这些变化,而所提出的方法可以很好地处理由外观多样性引起的伪变化。我们的方法采用了一种边界到中心的思想,这有助于变化区域的综合性。B2CNet在该数据集上取得了最先进的性能。

  1. HRCUS-CD数据集上的实验结果:为了进一步验证我们的模型在复杂场景中的有效性,我们在高分辨率复杂城市场景BCD(HRCUS-CD)数据集上比较了模型的性能。表II展示了我们提出的B2CNet方法和几个比较实验在HRCUS-CD数据集上的结果。与表现最好的DMINet相比,召回率、F1、IOU和Kappa分别提高了8.06、0.75、0.90和0.70。DSIFNet和SNUNet表现一般,表现最好的竞争方法是DMINet,其次是ICIFNet。

图8展示了不同方法在HRCUS-CD数据集上的结果。由于建筑周围环境的复杂性,该数据集是一个极具挑战性的任务。图8(1)-(5)显示了周围环境和复杂的城市场景。B2CNet的可视化结果更接近标签。图8(6)-(10)显示了颜色相似的场景,包括农田、工厂等的变化。B2CNet具有更强的抗伪变化干扰能力。值得注意的是,B2CNet对小型建筑物的感知能力更强,对大型建筑物的感知完整性更好。相比之下,B2CNet缓解了小型建筑物变化不可检测或大型建筑物变化检测不完整的问题。

E. 消融研究

为了评估CBM、BFAM、DFEM和分支监督(BS)在B2CNet架构中的有效性,我们在表III中列出了所有方法,均采用相同的主干。基线解码器包括特征差异(FD)分支作为基础网络。在Method_1、Method_2和Method_3中,将未辅助模块替换为特征拼接(FC),以评估这些模块在架构中的功效。方法的详细信息如下。

  1. 基线:ResNet18 + FD。

  2. Method_1:ResNet18 + CBM + FC。

  3. Method_2:ResNet18 + CBM + BFAM + FC。

  4. Method_3:ResNet18 + CBM + BFAM + DFEM。

  5. B2CNet:ResNet18 + CBM + BFAM + DFEM + BS。

逐步将特征拼接替换为我们提出的模块,揭示了模型性能的持续改进。在Method_1中,CBM作为指导网络的一个分支。该模型在LEVIR-CD和WHU-CD数据集上显示出更明显的增强,IOU分别提高了0.96和0.62。这突显了变化边界感知引导在变化特征检测中的有效性。然而,SYSU-CD和HRCUS-CD数据集的改进有限,IOU仅分别提高了0.35和0.33。这可能是因为复杂场景需要更强和更准确的语义信息以及更丰富的细节纹理信息。Method_2意味着我们在Method_1中添加了BFAM以提高变化区域的内部完整性。与Method_1相比,Method_2在IOU方面的改进分别为0.38(LEVIR)、0.69(WHU)、1.20(SYSU)和0.68(HRCUS)。此外,在Method_3中进一步嵌入了DFEM。可以看出,与Method_2相比,四个数据集的IOU进一步提高了0.27、0.59、0.89和0.46。这正面显示DFEM在将变化区域信息转换为高级语义信息方面表现更好。因此,在CBM上实施监督后,IOU/F1分数再次分别提高了0.28/0.71(LEVIR)、0.96/0.55(WHU)、2.26/1.56(SYSU)和2.32/1.93(HRCUS)。在CBM分支中应用监督更有利于提高变化区域信息的准确性,从而进一步帮助识别变化。

 图10展示了B2CNet网络的可视化结果,使用LEVIR-CD数据集中的图像作为示例。图中展示了输入图像、多层次特征图、通过不同模块生成的特征图以及最终的预测结果和地面真值。

                                    表III  不同数据集上消融实验结果的定量性能比较

此外,图9表示细化网络对变化特征检测的能力导致检测漏检率的降低、边缘细节的更清晰以及对各种影响的免疫力的增强。同时,为了更清晰地验证所提出模块的有效性,我们可视化了B2CNet各阶段的特征图,并提供了一个包括LEVIR-CD图像的示例。通过通道可视化,我们选择了代表性案例在图10中展示。显然,图10(c)更关注变化的边界,图10(e)更关注变化个体的中心,图10(d)结合了两者的关注点,关注整体。图10(f)是额外的预测分类器,用于区分图10(c)。可以看出,它对变化区域的中心关注仍然不足。相反,图10(g)是输出分类器,用于分类图10(d),变化区域获得了更准确和完整的关注。这与地面真值高度一致。这些结果归因于BFAM提供的互补空间纹理细节和DFEM增强的模型特征提取能力。因此,这些广泛的实验可以观察到B2CNet在缓解所提出问题方面的有效性。

F. 效率比较

除了对所有比较方法的变化检测结果进行定性和定量分析外,本文还验证了网络在参数数量(Params)、每秒浮点运算次数(FLOPs)和处理一对图像所需时间方面的效率。参数数量(Params)表示模型在训练过程中的学习需求,对应于模型的空间复杂度。FLOPs表示模型执行的浮点运算次数,作为模型时间复杂度的度量。时间指标表示模型处理单幅图像所需的运行时间。这些指标有效地反映了模型的效率。与所有实验一致,我们在Nvidia RTX 3090 GPU上进行了300轮测试,每轮测试涉及大小为256×256×3的图像。最终测试结果取平均值。如表IV所示,我们的模型B2CNet在Params和FLOPs方面与其他网络相比处于中等水平。然而,与DSIFNet、SNUNet和ICIFNet在同一级别相比,我们的模型在保持所有网络中最优性能的同时显著减少了时间。尽管与CGNet相比,其在LEVIR-CD数据集上的性能略有下降,但大大减少了Params和FLOPs。此外,我们提出了B2CNet_S,这是一个更高效的模型。B2CNet_S的性能相对于B2CNet略有下降。然而,它提高了推理速度,并显著降低了模型的空间复杂度。

                                          表IV  LEVIR-CD数据集上不同方法的效率比较

结合主观和客观分析的结果,我们可以得出结论,B2CNet在各种变化检测数据集上取得了最佳结果,而B2CNet_S也取得了优异的结果。因此,我们的方法在模型复杂度、时间成本和准确性之间取得了良好的平衡。此外,它表现出出色的鲁棒性和泛化能力。

五、讨论

考虑到准确变化检测的需求以及缓解细粒度变化检测边界不足和变化区域内部完整性差等问题,我们提出了一种基于变化边界感知引导的新颖变化检测网络。我们的方法旨在保留变化区域的更精细边界和内部信息,重点关注获取变化区域信息。我们引入了三个模块来实现这一点:CBM捕捉变化区域边界信息,BFAM强调细节纹理信息,DFEM结合全局信息并提取高级语义特征。此外,我们的网络架构采用了一种边界到中心的方法,利用边界信息进行形状和轮廓描述,并利用细节纹理信息补充边界和内部信息。这种方法促进了检测效果的完整性和细化。通过将模型参数数量和计算量保持在适度水平,我们提出的B2CNet方法实现了更快的推理和改进的检测性能。此外,考虑到现实应用场景的复杂性和硬件限制[61, 62],我们进一步减少了模型参数数量,并引入了轻量级版本B2CNet_S。该轻量级版本减少了计算负担,提高了推理速度,同时仅略微降低了检测准确性,仍然保持了优异的结果。模型的选择取决于具体场景需求。例如,在处理单一变化类别和高分辨率图像时,可以选择轻量级版本以获得更高的效率,仅对检测准确性产生轻微影响。另一方面,在复杂和多样化的场景中,具有多种变化类别时,可以选择B2CNet以获得卓越的检测结果,尽管效率有所降低。

总之,我们提出的方法确保了更好的检测结果,并具有相对良好的效率。我们在效率和检测效果之间取得了良好的平衡,但由于涉及大量乘法操作,模型的计算量并未降至较低水平。

六、结论

我们提出了B2CNet,一种受变化边界感知引导的变化检测网络。B2CNet由三个模块组成:CBM、BFAM和DFEM。CBM感知变化区域边界,增强边界信息,并指导更深层次的特征学习以进行形状描述。BFAM补充了时空纹理信息,以提高网络准确性。DFEM结合CBM和BFAM特征进行特征聚合和增强完整性。这些模块协同工作,提高了细粒度变化检测边界和内部特征完整性,增强了性能。我们在LEVIR-CD、WHU-CD、SYSU-CD和HRCUS-CD数据集上进行了比较实验,证明了B2CNet的鲁棒性和泛化能力。在四个数据集上的消融研究验证了CBM、BFAM和DFEM的有效性。我们的方法在效率指标之间取得了良好的平衡。尽管B2CNet_S的性能略有下降,但它在效率方面表现出色。

尽管我们的方法在参数和推理时间之间取得了良好的平衡,但在计算效率方面仍有进一步改进的空间。此外,复杂的变化场景仍然受到大变化、遮挡、阴影和复杂背景等因素的影响。未来的研究将集中在增强抗干扰能力、提高实时性能以及探索基于深度学习的轻量级模型以进行机载变化检测。此外,为了应对多样化和实时的任务需求,我们将进一步探索多源、多任务和多时相阶段的变化检测。我们还将考虑将系统部署在嵌入式设备或资源受限环境中的可能性。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Together_CZ

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值