TGRS2022/遥感:An Empirical Study of Remote Sensing Pretraining遥感预训练的实证研究

论文下载
开源代码

0.摘要

深度学习在很大程度上重塑了航空图像理解的遥感研究,并取得了巨大的成功。然而,现有的大多数深度模型都是用ImageNet预训练的权值进行初始化的。由于自然图像相对于航空图像不可避免地存在较大的域间隙,这可能限制了后续航空场景任务的微调性能。这一问题促使我们对航空影像进行遥感预训练(RSP)的实证研究。为此,我们在迄今为止最大的RS场景识别数据集MillionAID的帮助下,从无开始训练不同的网络,以获得一系列RS预训练的骨干,包括卷积神经网络(CNN)和视觉转换器,如Swin和ViTAE,它们在计算机视觉任务中表现出了良好的性能。然后,我们研究了RSP对代表性下游任务的影响,包括场景识别、语义分割、目标检测和变化检测,使用这些CNN和视觉Transformer主干。实证研究表明,可提取语义在场景识别任务和感知“桥”、“飞机”等与可提取语义相关的语义时具有显著的表现。我们还发现,虽然RSP缓解了传统的ImageNet预训练在RS图像上的数据差异,但它仍然可能受到任务差异的影响,其中下游任务需要不同于场景识别任务的表示。这些发现需要对大规模预训练数据集和有效的预训练方法进行进一步的研究。

1.概述

在这里插入图片描述

图1所示。航空场景识别的挑战。(a)及(b)为属于“公园”类别的自然图像及航空图像。©及(d)是两幅来自“学校”类别的航拍图像。虽然(a)和(b)的视野有明显的差异,但(b)包含了在公园场景中不常见的操场,而通常在(d)这样的学校场景中存在。©和(d)则呈现出不同的颜色,操场、游泳池等地物的空间分布也有明显的差异。(a)是透过互联网搜索“公园”,从http://travel.qunar.com/p-oi24486013-townhill郊野公园取得的影像;(b)、©及(d)是国际救援署数据集的航拍影像

随着地理信息技术的发展,对地观测领域取得了重大进展,各种遥感传感器和设备得到了广泛应用。其中,航空影像以其实时性、信息量大、获取方便等优势,已成为地球视觉中最重要的数据源之一,服务于精准农业[1]、[2]和环境监测[3]等一系列实际任务的需求。在这些应用中,航空场景识别是近年来一个基础而活跃的研究课题。然而,由于航拍图像自身的特点,如何有效地理解航拍场景仍然是一个挑战。
航拍图像通常是由放置在飞机或卫星上的相机以鸟瞰视角获得的,感知到大范围的土地利用和土地覆盖。由于与场景无关的区域的干扰以及地面物体复杂的空间分布,获取的航空场景通常难以解释。具体来说,它造成了空中场景理解的类间相似问题,即一些不同的场景呈现相似的特征,以及类内差异较大的问题,即同一类别的场景存在差异,如图1所示。
针对上述问题,需要获得不同类别航拍场景的判别特征表示。根据特征提取方法的不同,可以将其分为三类:手工特征、无监督学习特征和有监督深度学习(supervised deep learning, DL)特征。最初,研究人员直接利用简单的属性,如颜色[4]、纹理[5]、轮廓[6]、光谱或它们的组合[7]来识别不同的空中场景。除了这些直观的属性,还有一些精心设计的特性描述符。例如,尺度不变特征变换和定向梯度直方图。这些手工制作的功能通常在简单的场景中表现良好,而在复杂的场景中则无效。在数字视觉时代,它们通常被现代认为是浅层特征,而解释复杂场景需要更多的语义信息,而浅层方法[8]无法有效提取语义信息。与上述方法相比,无监督学习方法提供了一种基于一组手工特征或原始像素强度值自适应学习映射函数或过滤器来自动提取合适特征的可行方法。典型的无监督学习方法包括潜在潜在语义分析[9]和视觉词袋[10]。一些简单的特征增强方法,如主成分分析也属于这一类。尽管如此,编码后的无监督特征仍然具有有限的性能,因为没有明确使用类别监督,这对特征识别很有用。
近年来,DL凭借自动提取反映物体固有属性的深度特征的优势,在计算机视觉(computer vision, CV)场[11]-[17]和RS场[18]-[20]上取得了令人印象深刻的突破。在航空场景识别领域,最常用的深度模型是卷积神经网络(convolutional neural networks, CNN),它具有良好的局部感知能力和全局感知能力,前者是通过对输入图像进行滑动窗口卷积来提取局部特征,后者是通过叠加多个卷积层来增加接受域。根据训练方案,在航空场景识别方法中使用CNN的方法可以分为三类,即从零开始训练、微调和作为特征提取器。第一种方案不涉及任何外部数据,这意味着没有可以利用的先验知识。为了解决这个问题,微调方案使用在大规模数据集上预先训练的网络作为进一步训练(即微调)的起点。最后一种方案直接从预训练的CNN中提取特征,无需进一步微调,因此缺乏适应不同下游任务航拍图像的灵活性。
已有文献[21]表明,该调优策略性能优于其他调优策略。我们将其归因于使用的预训练数据集的容量,包括样本大小和类别数量。在包括航空场景识别任务在内的当前RS领域,几乎所有的精细调整模型都是在CV领域最著名的图像数据集ImageNet-1K数据集[22]上预训练的。来自1000个不同类别的数百万张真实世界的图像使模型能够学习强大的表示。通常使用VGG[11]和ResNet[12]等现成的深度模型作为航空场景识别的骨干网络,因为在ImageNet上从头训练一个新的网络耗时且需要大量的计算资源。为了进一步提高分类性能,[23]、[24]方法采用ImageNet预训练的模型作为骨干网,并利用骨干网中的多层次特征。此外,针对航空识别任务还专门设计了许多其他组件或策略,如蒸馏[25]和特征划分[26]。
虽然上述方法在航空场景识别中取得了显著的效果,但仍有一些问题需要进一步研究。直观地说,在考虑航拍图像的特性时,与自然图像相比,航拍图像在视角、颜色、纹理、布局、目标等方面都存在较大的领域差距。以前的方法试图通过进一步微调RS图像数据集上的预训练模型来缩小这一差距。然而,ImageNet Pretraining (IMP)引入的系统偏差对性能[27]有不可忽视的侧面影响。另一方面,我们注意到随着遥感技术的发展,有大量的不同传感器采集到的航空图像,可以用于预训练。作为一个代表性的例子,MillionAID[28]是迄今为止最大的航空图像数据集,与ImageNet-1K数据集具有百万级容量,使遥感预训练(RSP)成为可能。
RSP可以从头开始训练一个深度模型,这意味着候选模型不需要局限于现成的CNN。在本文中,我们还研究了RSP与视觉Transformer的影响,它们在CV域显示了令人惊讶的良好性能。与CNN中擅长局部建模的卷积相比,Transformer中的多头自注意(MHSA),如SwinTransformer[13],可以灵活地捕获不同的全局上下文。最近,ViTAE[14],[29]探索了卷积和MHSA同时建模局部性和长程依赖性,在ImageNet分类任务和下游视觉任务上实现了最先进的(SOTA)性能。此外,它还通过扩展的卷积模块和逐级设计提取多尺度特征,这在以往的工作中已经证明是有效的,特别是在航空图像判读[30]中。由于CNN和前面提到的视觉转换器也可以在不同的阶段产生中间特征,这对很多下游任务都很有用,我们也研究了它们在RSP之后在语义分割、目标检测和变化检测方面的微调性能。为了实现这些目标,我们在九个流行的数据集上进行了广泛的实验,并有了一些发现。可接收粒子群算法是航空图像理解领域的一个新兴研究方向,但其研究还处于起步阶段,尤其是在视觉Transformer领域的研究还处于起步阶段。我们希望本研究能够填补这一空白,为未来的研究提供有益的见解。
本文的主要贡献有三个方面:
(1)我们通过使用三种类型的骨干网络,包括传统的CNN、竞争视觉Transformer模型和先进的ViTAETransformer,对大规模遥感数据集进行训练,研究遥感预训练的影响。
(2)我们利用9个数据集,在场景识别、语义分割、目标检测和变化检测4类任务上,对上述用遥感或ImageNet预训练权重初始化的模型进行进一步微调,并与其他方法进行比较。
(3)实验结果表明,典型的视觉Transformer模型可以获得与CNN相媲美的性能或更好的性能。特别是,ViTAE几乎在所有设置下都能达到最好的性能,即使与现有的最先进的方法相比。此外,本文还将介绍遥感预训练的一系列研究结果,包括与传统ImageNet预训练的比较以及在不同下游任务上的表现。这些发现为未来的研究提供了有用的见解。
本文的其余部分组织如下。第二部分介绍了相关的工作,包括航空场景识别方法,特别是CNN和视觉Transformer相关的方法,以及RSP已有的工作。第三部分介绍了RSP的实现,以及使用的大容量MillionAID数据集和采用的ViTAE网络。第四部分给出了四个任务的实验结果和相关的综合分析。最后,第五部分对本文进行总结。

2.相关工作

2.1.空中场景识别

目前有大量的基于cnn的航空场景识别方法。许多现成的CNN分类模型在ImageNet上进行了预训练,如VGG[11]、ResNet[12]和DenseNet[31],已被用于航空图像并进一步微调。然而,对于具有类间相似性和类内多样性的具有挑战性的空中场景,仅使用最后一层的特征并不能很容易地解释,这也被认为是与前几层特征相比的“全局特征”,因为它也有助于突出场景相关的重要局部区域,以便理解场景。为了解决这一问题,[23]、[32]联合利用了多层CNN特征,来自深层的高级特征通常具有丰富的语义信息,而浅层的低级特征往往提供视觉结构。例如[32]对VGG的多个特征进行不同的扩张卷积,得到更有效的多尺度特征。此外,它们通过保留局部最大值和在窗口内用二维类高斯分布修正其他值来优化类别概率,以增强局部区域。[23]分别对多层VGG特征进行图卷积,将每个像素表示作为一个节点,提取的图特征与最后的全局视觉特征进行连接。
除了特征融合外,注意力机制还被广泛应用于航空场景识别,因为它可以模拟人类视觉,直接对当前场景的各个区域分配不同的权重,从而增强局部特征。注意模块可以很容易地插入CNN[33]。例如,[34]与[35]一样,采用通道注意模块和空间注意模块并行,形成互补的注意。[32]还利用空间注意进一步调整优化后的类别概率。航空场景识别的另一个要点是对不同区域之间的关系建模。例如,[23]捕捉不同对象的拓扑关系,其中邻接矩阵是精心设计的。此外,在航空场景识别研究中也探索了多实例学习[36]、自蒸馏[25]和特征划分[26]等有趣的课题。
在场景识别任务中,线性层之前的网络可以作为许多下游任务的特征编码器,其中航空图像最具代表性的是语义分割、目标检测和变化检测。语义分割和目标检测是CV中比较常见的任务,而变化检测则是RS中的特殊任务,到目前为止,上述领域的大量相关方法已经开发出来。详情请参阅[37]-[40]。

2.2.视觉Transformer

Transformer首先在[41]中提出,并被广泛应用于自然语言处理(NLP)领域[42]、[43]。除了NLP之外,最近提出的视觉Transformer也掀起了CV领域[13]、[14]、[29]、[44]-[51]的研究热潮。视觉转换器的核心部件是MHSA,即自我注意(self-attention, SA)的延伸。与卷积运算相比,SA可以捕获长期的背景和任何不同位置之间的关系。MHSA在SA的基础上,在不同的投影子空间中分别进行SA,具有更强的代表能力。ViT[44]是先锋的视觉转换器,其中输入图像被分割成固定大小的补丁,形成令牌,然后输入到MHSA。然而,固定的接收域限制了其在下游任务中的应用,且全局MHSA计算复杂度高。为了解决前一个问题,PVT[46]采用了经典的金字塔结构,通过生成分层多尺度特征来提高模型的可移动性。Swin[13]进一步替代了可移动窗口MHSA (WMHSA),极大地减少了计算开销,在许多CV任务中取得了优异的性能。但是,它仍然存在着视觉转换器常见的问题,比如建模局部性低,尺度不变性差,而这正是CNN的优势所在。因此,除了Swin,我们还采用了另一个高级视觉TransformerViTAE[14],[29],将CNN的固有偏差引入到Transformer中。它还采用金字塔结构生成层次特征和局部窗口关注,在具有合理的计算开销和内存占用的同时,在许多CV任务上实现了更好的性能。以视觉Transformer为骨干进行空中场景识别的研究还较少,而现有方法仅将ViT作为平行于CNN[52]的分支,这意味着迫切需要进一步探索视觉Transformer在空中场景任务中的应用。

2.3.遥感预训练

利用RS数据集进行预训练进行航空场景识别是一种非常直观的思路。然而,据我们所知,由于像ImageNet这样的大规模RS数据集的不足,在这个方向上的探索很少。尽管如此,研究人员已经尝试从其他资源获取RS表示。例如,GeoKR[53]利用全球土地覆盖产品作为标签,他们使用mean-teacher框架来缓解遥感图像与地理图像之间成像时间和分辨率差异的影响。然而,由于数据分布的内在差异,对不同数据集进行强制对齐不可避免地会带来误差。大容量遥感数据的稀缺性主要表现在分类标签方面,而不是图像方面。在这种情况下,开发自我监督的训练前训练方法[54]-[57]是有希望的,在RS区[27],[58]-[60]已经开发了一些相关的方法。例如,SeCo[58]利用季节变化来加强正样本之间的一致性,这是空中场景的独特特征,而[59]同时将时间信息和地理位置融合到MoCo-V2[55]框架中。此外,还用一些方法探讨了信道特性[60]和空间方差[27]。在本研究中,由于采用的MillionAID数据集具有专家标注的地面真实标签,且不包含任何时间信息,因此我们像传统IMP一样直接进行监督前训练

3.遥感预训练

在本节中,我们首先简要介绍了采用的大规模RS数据——MillionAID。然后,我们描述所使用的ViTAE Transformer的细节。最后介绍RSP的全过程。

3.1.MillionAID

据我们所知,MillionAID是目前RS地区最大的数据集。它包含100,0848个不重叠场景,超过了竞争对手fMoW[61]和BigEarthNet[62],后者分别包含132,716和590,326个场景。注意,fMoW包含1047691张图像,因为它们为每个场景提供了多个时间视图。此外,需要注意的是,fMoW和BigEarthNet是多光谱数据集,而MillionAID是RGB数据集,更适合现有的深度视觉模型。MillionAID的分类是由位于第2层28个父节点上的51个叶子组成的层次树,28个组分别属于农业用地、商业用地、工业用地、公共服务用地、住宅用地、交通用地、未利用地、水域等8个基本类别,每个叶子类别的图像数量为2000 ~ 4.5万张。该数据集来自谷歌Earth,该数据集由不同的传感器组成,包括但不限于SPOT、IKONOS、WorldView和Landsat系列,因此分辨率不同。最大分辨率可达0.5m,最小分辨率为153m。图像尺寸范围从110 × 110到31672 × 31672。

3.2.ViTAE

在这里插入图片描述

图2所示。所采用ViTAE模型示意图。(a) ViTAE[14]原始版本。(b) ViTAEv2[29]。

在这里插入图片描述

图3所示。ViTAE模型中不同细胞的结构。(a)和©为原始ViTAE中的Reduction Cell, Normal Cell,(b)和(d)为ViTAEv2中的对应变体。

原始ViTAE[14]遵循了T2T-ViT的深-窄设计[63],发现简单地减小通道维数,增加层深可以提高ViT的特征丰富度,在提高性能的同时降低模型尺寸和计算成本。因此,原始的ViTAE首先通过3个缩减单元对输入图像进行降采样至1/16大小。与ViT类似,在添加元素正弦位置编码之前,将类标记与第三个约简单元的输出连接起来。然后,对多个正常的cell进行堆叠,并保持特征的大小直到最后。最后一个正常单元的类标记特性用于通过线性层进行分类。
虽然原始的ViTAE在ImageNet分类上表现良好,但由于不能在不同尺度上生成丰富的中间特征,因此不适合转移到分割、检测、位姿估计等任务上。为此,作者提出了ViTAEv2改进型[29],它采用了ResNet、Swin等流行骨干网络的经典阶段设计。图2显示了原始ViTAE和ViTAEv2之间的比较。在ViTAEv2中,网络分为多个阶段,通常为4个阶段。在每个阶段中,第一个单元是降采样的还原单元,然后是堆叠的正常单元。在最后一个普通单元格之后使用平均池层来替换类令牌。当对下游任务进行微调时,这个池化层被删除,保留的网络与相应的任务解码器连接。
本文采用ViTAE V2模型求解RSP。具体来说,受Swin[13]的启发,ViTAE中的一些mhsa被WMHSA所取代,以降低计算成本。具体来说,考虑到后期特征尺寸变小,对于WMHSA不需要对特征进行分区。因此,只有前两个阶段的mhsa被WMHSA取代。需要注意的是,采用的WMHSA不需要像原来那样进行平移,因为WMHSA是在金字塔缩减模块(PRM)合并的多尺度特征上进行的,不同的区域通过滑动扩张卷积的重叠接收域进行通信。此外,由于卷积已经对位置信息进行了编码,因此也不需要使用相对位置编码。此外,为了减少非线性,并行卷积模块(PCM)最后一层的SiLU[64]也被去除。原始ViTAE和ViTAEv2中不同细胞的结构和比较如图3所示。Reduction Cell, Normal Cell, PRM, PCM,,读者可以参考[14]和[29]了解更多信息。
在我们的实现中,我们主要评估原始ViTAE的“小”版本,命名为ViTAE- s。此外,我们还采用了ViTAEv2-S模型,因为它具有出色的表示能力和对下游任务的可转移性。表一列出了ViTAE-S和ViTAEv2-S的详细信息。在这里,对应列表的长度等于阶段的数量。“Embedding Dim”是PRM中的编码维数,“Stage Dim”是特征经过相应阶段的信道数,这对于对齐下游相关的任务译码器很有帮助。“RC”和“NC”分别代表Reduction Cell和Normal Cell,其中“Head”是MHSA或WMHSA中的Head 编号,“Group”代表PCM中的组卷积数,“Type”是具体的注意类型。ViTAE-S在前两个Reduction Cell中采用T2T-ViT[63]。“L”表示此Reduction Cell不使用PCM而引起注意。“F”和“W”分别表示ViT和Swin中的MHSA和WMHSA。最后,“Depth”是堆叠的Normal Cell的个数,也就是图2中的Ni

3.3.实施细节

3.3.1.确定预训练网络

我们首先确定用于RSP的深度模型的类型。为此,我们从官方训练集中构建了一个小型训练集和一个小型评价集,分别有9775和225张图像。注意后一个集合是通过从每个类别中随机选择5张图片来平衡类组成的。对于CNN,采用经典的ResNet-50[12]。由于本研究主要探讨基于RSP的视觉Transformer模型的性能,因此也对一系列典型的基于视觉Transformer的网络进行了评估,包括DeiT-S[45]、PVT-S[46]和Swin-T[13]。选择特定的版本是为了保证这些模型与ViTAE-S模型具有相似的参数量。此外,我们还包括了vitb[44]作为参考,因为ViT是视觉Transformer最基本的架构。
所有模型训练300个epoch,批大小16。我们采用AdamW优化器,动量设置为0.9,权重衰减设置为0.05。初始学习率为1e-3,通过余弦调度策略调整,其中Min lr是5e-6。此外,我们将预热期设置为5,其中学习率设置为5e-7。按照典型的IMP方法,训练时通过随机裁剪将输入图像的大小调整为224 × 224,测试时通过“中心裁剪”得到相同大小的图像。此外,利用AutoAugment[65]、Random Erasing[66]、Mixup[67]、CutMix[68]、color jitter等一系列数据参数来提高训练性能。以精度top-1和top-5作为评价指标。此外,所有型号都是在单个NVIDIA Tesla V100 GPU上实现的,结果如表2所示
可以看出,vitb虽然参数最多,但性能并不比经典的ResNet-50好。DeiT-S的表现最差,因为我们没有采用教师模式。由于我们的任务是利用RS图像进行预训练,因此获得相应的教师模型是我们的目标而不是前提。通过引入特征金字塔的设计范式,PVT-S比vt - b提高了准确率。在此基础上,原始的ViTAE-S进一步考虑了局域性和尺度不变性建模,这是传统CNN模型的归纳偏差。但是,由于早期rc的token数量较大,需要进行更多的计算,因此需要大量的训练时间。Swin-T通过将MHSA限制在固定窗口来解决这个问题,并采用图像变换来含蓄地促进窗口之间的通信。通过利用WMHSA的优势,ViTAEv2-S取得了最好的性能,比排名第二的准确率高出2.3%。
模型确定过程如下所示。对于ViTAE模型,我们选择最强的模型,即ViTAEv2-S,以期望在采用RSP时在航拍场景识别等下游任务中表现良好。在常规CNN中选择ResNet-50作为代表网络进行比较,RS预训练的ResNet50也可以在一系列航空数据集上提供一组新的CNN相关基线。由于叠置变压器的设计,使得DeiT-S和vitb的精度低、参数多而被淘汰,且难以转移到下游任务。Swin可以看作是建立在PVT基础上的,用可移动的WMHSA代替全局的MHSA。由于Swin的top-1精度比PVT大,并且Swin- t需要的训练时间更少,所以在后续的实验中我们也选择了Swin- t。

3.3.2.获取适合的权重

在确定候选模型后,我们进行RSP来获得预训练的权重。具体来说,为了保持类别平衡,我们在MillionAID数据集的每个类别中随机选择1000张图片,形成有51,000张图片的验证集,实现了与ImageNet验证集(包含50,000张图片)相似的体积。剩下的949,848张图像用于训练。虽然RSP的图像数量和类别比ImageNet训练集少,但它仍然可以在空中场景任务中表现出竞争性甚至达到SOTA的结果,具体细节将在后面介绍。
为了获得合适的预训练权重,我们在不同的时代配置下分别训练ViTAEv2-S模型。基本学习率为5e-4,批大小设置为384。保留的设置与上一个实验相同。所有实验均在4个V100 gpu下进行,实验结果如表三所示。从结果可以看出,模型在40个epoch左右开始饱和,与训练20个epoch相比,只提高了0.64%的top-1精度,而接下来的20个epoch仅提高了0.23%。因此,首先选择40个epoch训练的网络权值作为ViTAEv2-S的RSP参数,应用于后续任务。直观地看,在大规模预训练数据集上取得良好性能的模型在下游任务上也会有良好的表现。因此,我们也在下游任务中使用100个epoch训练的网络权值。这些型号分别用“E40”和“E100”后缀表示。
对于ResNet-50和Swin-T,我们遵循[13]来配置训练设置,其中网络被训练为300个epoch。在实验中,我们观察到Swin-T-E120在验证集上的top-1准确率与ViTAEv2-S-E40大致相当。因此,我们选择Swin-TE120的训练权重。同样,我们也选择最终的网络权重Swin-T-E300与ViTAEv2-S-E100进行比较。为了使实验公平,也考虑用40个epoch训练的ResNet-50和Swin-T的权重,因为它们与ViTAEv2-S-E40使用相同数量的epoch进行训练。
最终的预训练模型列在表4中。可以看出,验证精度几乎是随着训练时间的增加而增加的。但是,Swin-T-E300的性能不如Swin-T-E120。尽管如此,我们还是保留了它,因为它可以通过看到更多样化的样本而有更强的泛化能力。

4.对下游任务进行微调

4.1.空中场景识别

首先介绍了所使用的场景识别数据集和实现细节,然后给出了实验结果和分析。

4.1.1.数据集

利用UC Merced Land Use (UCM)数据集[69]、航空图像数据集(AID)[70]和西北工业大学(NWPU-RESISC)[21]创建的RS图像场景分类基准,综合评价RSP的影响以及采用的上述主干的表示能力。

  • UCM:这是场景识别最重要的数据集。它包含2100张图片,大小均为256 × 256,像素分辨率为0.3m。这2100张图片同样属于21个类别。因此,每个类别有100张图片。所有的样本都是人工从美国地质调查局国家地图城市区域图像数据库的大型图像中提取的,这些图像采集自全国各地的城市地区。
  • AID:这是一个具有挑战性的数据集,它是通过GE上的多源传感器收集图像生成的。由于图片是从不同国家精心挑选出来的,所以它具有高度的阶层多样性。在不同的时间和季节,在不同的成像条件下提取。它有10000张600 × 600大小的图片,属于30个类别。
  • NWPU-RESISC:该数据集的特点是有大量的样本。它包含31500张图片和45个类别,每个类别有700个样本。每个图像有256 × 256像素。空间分辨率从0.2m到30m不等。一些特殊地形,如岛屿、湖泊、普通山脉和雪山,可能分辨率较低。

4.1.2.实施细节和实验设置

训练设置与之前的实验相同。训练纪元和批大小分别设置为200和64。这些实验是在单个V100 GPU上进行的。[34]之后,采用3个数据集的5个设置,分别为UCM(8:2)、AID(2:8)、AID(5:5)、NWPU-RESISC(1:9)和NWPU-RESISC(2:8),对RS预训练模型进行综合评价,使实验变得可信。注意m: n表示10m%样本用于训练,其余组成测试集。
与上一节类似,每个类别的图像按比例分为两组,分别用于训练和评估。除了我们选择的以上三个骨干外,我们还采用ImageNet预训练的ResNet-50和SeCo[58]预训练的ResNet-50(一种考虑季节变化的RS自监督方法)进行公平的比较。在对每个场景识别任务进行微调时,只改变最后一层线性层的神经元数来匹配目标数据集的类别。实验中使用了航空场景识别界最常用的标准——总体准确率(OA),通过计算正确分类图像相对于测试集中所有图像的比例来判断。模型在每次设定下重复训练和评价5次,记录不同试验结果的平均值µ和标准差σ为µ±σ。

4.1.3.实验结果

定量结果与分析
在这里插入图片描述

表v所选模型和sota方法在三种场景识别数据集上不同设置下的结果。后三组的加粗字体表示结果最好,而“*”表示所有模型中最好。

表V给出了上述选择的使用不同方法和其他SOTA方法进行预训练的骨干的结果。由于本研究仅关注深度网络的预训练,尤其是视觉变形器。本文仅列出了基于DL的航空场景识别方法。为方便起见,“ImageNet Pretraining”和“Remote Sensing Pretraining”分别用“IMP”和“RSP”表示。可以看到,这些方法被分为五组。第一组是采用ResNet-50作为骨干网的方法,其中ResNet-50由ImageNet预训练权值进行初始化。这一组可以用来与第三组进行比较。第二组包括最新的现有先进方法,其骨干是除ResNet-50以外的其他流行网络,如ImageNet预训练的VGG-16、ResNet-101、DenseNet-121等。然后,ResNet-50、Swin-T和ViTAEv2-S网络分别由IMP、RSP或SeCo获得预训练的权值,组成后三组网络。此外,需要注意的是,除了网络类型之外,还考虑了针对不同时代预训练的权值。后三组的加粗字体表示每组的结果最好,“*”表示所有模型中最好(其他任务含义相同)。
在ImageNet预训练ResNet-50的基础上,开发了许多方法,第一组展示了这些方法。在这些方法中,探索了许多灵活、先进的模块。例如,注意机制(CBAM [35], EAM [71], MBLANet[34])突出了特征的特定通道或空间位置,以及多尺度特征(F2BRBM[72]和GRMANet[73])也使用了中间特征。
此外,结合专门设计的损失函数的自蒸馏技术(ESD-MBENet[25])和多分支连体网络(IDCCP[74])也得到了应用。而在第二组中,则展示了具有各种主干的更多样化的框架。除了传统的CNN,最近的ViT也被应用在一些作品中。与impv - b模型相比,RSP-SwinT-E300模型具有更好的可训练参数。可以观察到,随着时间的推移,脊骨在发生变化。早期使用的VGG-16由于其更好的表示能力,逐渐被ResNet-101或DenseNet-121等更深层的网络所取代。
在已实现的网络中,SeCo- resnet -50与其他网络相比表现最差,这可能是因为SeCo与RGB图像训练用于航空场景识别的Sentinel-2多光谱图像之间仍然存在差距。与ImageNet预训练的ResNet-50相比,我们的RS预训练的ResNet-50提高了所有设置的准确性。这些结果表明,与ImageNet中的自然图像相比,用于预训练的航空图像为后续微调过程的优化提供了一个更好的起点。类似地,RSP-Swin-T在三个设置上的性能优于IMPSwin-T,并在其他两个设置上取得了类似的结果。此外,ResNet-50和Swin-T在不改变网络结构的情况下仅使用RSP权值,就可以与其他复杂的方法相比具有竞争力。另外,对比ImageNet预训练的ResNet-50和Swin-T,我们可以发现,由于视觉转换器具有更强的上下文建模能力,IMP-Swin-T在所有设置中都表现得更好。
通过RSP权值的初始化,ResNet变得更具竞争力,在AID(2:8)、nwpu - resistance(1:9)和nwpu - resistance(2:8)设置上超过了IMP-Swin-T,再次显示了RSP的优势。由于ViTAEv2-S具有出色的表示能力,既具有局域建模能力,又具有远程依赖建模能力,它在几乎所有设置上都优于ResNet-50和SwinT,而不考虑IMP和RSP。此外,RSP-ViTAEv2-S在除AID(5:5)以外的几乎所有设置上都达到了所有其他方法的最佳性能,尽管它也提供了与最佳方法(即RSP-Swin-T-E300)相当的性能。
在我们的实验中,RSP有助于网络在小数据集上获得更好的性能,这可能是因为采用RS预训练权值时模型更容易收敛。而对于训练样本丰富的情况,如AID(5:5),则可以充分利用更深层次模型的表示能力。例如,基于DenseNet-121的ESD-MBENeT获得了最好的精度。但是需要注意的是,RSP-ResNet-50、RSP-Swin-T或RSPViTAEv2-S仅使用最后一层的特征输出进行分类,期望在使用多层中间特征时,它们的性能可以进一步提高。从这个意义上说,这些RS预训练模型可以为未来航空识别领域的研究提供有效的骨干。此外,表V还表明,预训练的epoch越多的模型可能具有更强的表示能力。由于RSP-ResNet-50-E40和RSP-Swin-T-E40落后于同时代的网络,所以在其余实验中,我们只评估这两种网络的“E120”和“E300”预训练权重,而对于ViTAEv2-S,“E40”和“E100”权重仍然使用
定性结果与分析
在这里插入图片描述
在这里插入图片描述

图4所示。评价模型在不同场景下的响应图。(一)原始图像。(b) IMP-ResNet-50。© SeCo-ResNet-50。(d) RSP-ResNet-50。IMP-Swin-T (e)。RSP-Swin-T (f)。(g) IMP-ViTAEv2-S。RSP-ViTAEv2-S (h)。

在这里插入图片描述

图5所示。(a)、(b)、©分别为ResNet-50、Swin-T和ViTAEv2-S的训练损失曲线,每10次迭代记录一次损失。(d)为这些模型的测试精度曲线。所有曲线都是在UCM(8:2)的设定下训练得到的。(a)、(b)和©中的曲线已用移动平均法进行平滑处理。

图4显示了使用GradCAM++[80]对来自不同场景的图像的上述评估模型的响应图。颜色越暖,反应越高。为了更好地显示RSP的影响,我们对ResNet50和Swin-T使用“E300”的预训练权重,对ViTAEv2-S使用“E100”的权重。
前三排是自然景观,4-8排的场景主要是具体的前景对象,后六排是一些不同人工构造的场景。例如,“热电站”的场景不仅包括烟囱,还包括冷却塔。
与表V的定量结果相对应,SeCo-ResNet-50的响应图较为分散,不能准确捕捉语义相关区域,尤其是在自然景观或人工建筑的复杂场景中。与IMP-ResNet-50相比,RSPResNet-50更关注重要目标。这意味着RSP有助于ResNet-50学习更好的语义表示,可能是通过在MillionAID数据集中看到语义相似的图像。与ResNet-50相比,Swin-T在MHSA的帮助下对遥远地区进行观测,具有更好的上下文建模能力。因此,它们的高反应区域范围更广。令人惊讶的是,IMP-Swin-T主要集中在背景上下文,但在采用RSP时,前景响应得到了增强。ViTAEv2-S结合了CNN和视觉Transformer的优势,实现了对整个场景的全面感知。特别是RSP-ViTAEv2-S能较好地识别梯田、山地、河流等典型自然RS场景。在基于前景对象的场景中,与RSP-ResNet-50相比,RSP-ViTAEv2-S不仅关注主要对象,还考虑了背景中的相关区域。而在物体上,RSP-ViTAEv2-S会给予更高的注意力,比如飞机的颜色比IMP-ViTAEv2-S更温暖。在物体分布复杂的住区中,RSP-ViTAEv2-S能够正确捕捉稀疏的建筑,并将这些区域连接起来形成整体表征,有效感知场景的整体信息。在学校场景的第一张图中,RSP-ViTAEv2-S同时关注操场和周围环境,超越了secresnet -50。对于甚至难以被人类识别的“school-2”形象,这些模型表现出不同的识别优先级。例如,RSP-ViTAEv2-S不仅像impe - resnet -50那样考虑校园(可以通过不规则的建筑形状来区分),还会注意到周围的道路。表V和图4的结果验证了可接收向量法的有效性和视觉Transformer在航空场景识别任务中的优越性。
我们还提供训练损失曲线和测试精度曲线来研究不同训练前方法在训练阶段的性能。这里,UCM的设置(8:2)被选为我们的例子。相应的结果如图5所示,分别绘制了三种网络的损耗曲线。可以看出,SeCo-ResNet-50表现最差,初始损失最大,这进一步证实了我们之前的假设,即Sentinel-2多光谱图像与使用的RGB航拍图像之间存在较大的差距,虽然它们都是RS图像。与IMP相比,可以观察到RS预训练模型有更好的起点,证明了我们的直觉,RS预训练的权值更容易在空中场景之间传递。同样值得注意的是,这些曲线对于同一网络的形状是相似的,这意味着不同网络结构的独特特征。我们还可以发现,当其他网络失效时,先进的结构使ViTAEv2-S减少了IMP和RSP之间不同的起点所表明的性能差距。
此外,我们还可以发现RSP加速了ResNet-50的学习,与IMP-ResNet-50相比,其精度曲线与Swin-T相似。对于Swin-T, RSP也有助于快速收敛。采用RSP时,在所有型号中,先进的Transformer网络ViTAEv2-S可以同时达到最好的精度和最快的收敛速度。

  • 2
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值