图像分割(八)——Transformer-Based Decoder Designs for Semantic Segmentation on Remotely Sensed Images

Abstract

Transformer 在一些自然语言处理(NLP)任务和图像处理任务中都取得了显著的成就。在此,我们提出了一个深度学习(DL)模型,它能够通过两种方式改进语义分割网络。首先,该模型利用视觉变压器(ViT)下的预训练好的Swin Transformer(SwinTF)作为骨干,该模型通过在预先训练好的编码器上连接任务层来赋予下游任务的权重。其次,将解码器设计应用于我们的DL网络,采用U-Net、金字塔场景解析(PSP)网络和特征金字塔网络(FPN)方法,进行像素级分割。结果与其他先进的图像标记(SOTA)方法进行了比较,如全局卷积网络(GCN)和ViT进行了比较。大量实验表明,我们采用解码器设计的Swin变压器(SwinTF)在the Thailand Isan Landsat-8 corpus(89.8% F1 score)、Thailand North Landsat-8 corpus(63.12% F1 score)在 ISPRS Vaihingen 数据集上达到了一种有竞争力的结果。此外,我们提出的两种方法(SwinTF-PSP和SwinTF-FPN)甚至在 Thailand, Landsat-8, and ISPRS Vaihingen corpora 的ImageNet-1K的监督预训练ViT上都优于SwinTF。

contribution

  • 利用一个预训练的ViT模型来检索基于航空和卫星图像中的vision patches的 virtual visual tokens :我们调整下游责任的模型权重,在ViT下使用训练前的SwinTF,加入 responsibility layers和叠加预先训练的编码器。
  • 提出我们的DL网络的三个解码器设计,包括 (i) U-Net [29],(ii)金字塔场景解析(PSP)网络[30],和(iii)特征金字塔网络(FPN)[31]进行像素级分割。

2. Material and Methods

2.1 Transformer Model

2.1.1 Transformer Based Semantic Segmentation

SwinTF 遵循具有变压器[37]的序列到序列向量,以及具有输入向量制造的相应输出向量,如NLP。NLP涉及计算机和人类语言之间的交互,以处理和分析大量成熟的语言。因此,如图1所示,SwinTF允许向量嵌入的1D序列 z ∈ R L × C z∈R^{L×C} zRL×C 作为输入,L是向量的长度,C是隐藏的核大小。因此,图像序列必须将图像 x ∈ R H × W × 3 x∈R^{H×W×3} xRH×W×3 的输入层变成Z。

设计用于语义分割的传统编码器将通过特征图 x f ∈ R H / 16 × W / 16 × C x_f∈R^{H/16×W/16×C} xfRH/16×W/16×C 将2D图像 x ∈ R H W 3 x∈R^{HW3} xRHW3 降采样到网格中,我们决定将变压器输入序列长度L设置为 H / 16 × W / 16 = H W / 256 H/16×W/16 = HW/256 H/16×W/16=HW/256,这意味着ViT的向量序列的输出可以清晰地重塑为点核映射 x f x_f xf.

为了恢复输入的 H W / 256 HW/256 HW/256 长的向量序列,我们将图像 x ∈ R H × W × 3 x∈R^{H×W×3} xRH×W×3 分割为 H / 16 × W / 16 H/16×W/16 H/16×W/16补丁的网格。因此,在这些图像片token上适应了几个具有改进的自注意计算的ViT模块(SwinTF模块)。ViT模块保持了图像片的数量为 H / 4 × W / 4 H/4×W/4 H/4×W/4 ,然后在这个网格中生成一个序列。每个向量化的图像片 p p p 被映射到一个潜在的 c c c 维嵌入空间利用一个线性映射 f : p → e ∈ R C f : p→e∈R^{C} f:peRC 对于每一个图像片 x x x ;我们得到了一维的向量嵌入。因此,我们为每个位置 i i i 获得一个唯一的嵌入 p i p_i pi 来编码补丁空间信息,然后将其添加到 e i e_i ei 中,生成最终的序列输入 E = { e 1 + p 1 , e 2 + p 2 , . . . , e L + p L } E = \{e_1+p_1,e_2+p_2,...,e_L+p_L\} E={e1+p1,e2+p2,...,eL+pL} 。在这个过程中,空间数据被保留,尽管变压器的顺序不低。
图1
SwinTF的编码器由MLP和MSA模块的 L e L_e Le 向量组成(图1)。在每一层 l l l 中,自注意的输入被描述为三组(查询,键,值),并从输入 Z l − 1 ∈ R L × C Z_{l−1}∈R^{L×C} Zl1RL×C 计算为:

1
将自注意力(SA)表示为:

2

2.1.2 Decoder Designs

为了评估SwinTF的编码器向量的有效性,如Z所示,我们设置了如图2所示的三种不同的解码器设计来实现像素级标记。接下来,这三个解码器可以表示为:
图2

  1. U-Net [29]:右边的扩展路径(解码器)应用与普通卷积的转置卷积。解码器中的图像大小逐渐增大,而深度逐渐减小。为了提高精度,我们在解码器的每个阶段使用跳过连接,通过将转置的卷积层的输出与来自同一级别的编码器的特征映射连接起来。编码器路径的高分辨率(但语义上薄弱)特性以这种方式与上采样输出混合和重用。
    如图所示,U-Net具有非对称的设计。扩展方向上的每一步,包括特征图的上采样,然后是2×2转置卷积,在解码器路径中使用一半。因此,我们有一个与收缩路径的适当特征图的连接,以及一个3×3卷积神经网络(每个后面跟着一个校正的线性单元(ReLU))。1×1卷积将通道传输到最后一层中所需的类数量。这样的目的是在连接之前,以弥补解码器和编码器特征映射之间的特征差距。
  2. 对于像素级场景解析,使用了PSP网络,并提供了优秀的全局上下文先验[30]。金字塔池模块比全局平均池(GAP)可以捕获更有代表性的数据级别。子区域平均池的概念与SPPNet的空间金字塔池[38]相当。采用双线性插值法使所有特征图的大小相等;11卷积然后连接类似于初始[39]或MobileNet [40]使用的深度可分离卷积中的深度卷积。为了尽可能减少有害影响,上采样到2×是有限的。
    因此,尺寸为 A H / 16 × W / 16 AH/16×W/16 AH/16×W/16 B Z L e BZ^{L_e} BZLe 的全分辨率总共需要4个过程。如图2所示,绿色图层是最粗糙的级别,在每个特性映射上执行GAP以提供一个bin输出。黄色层是第二层,它将特征图划分为2×2个子区域,并对每个子区域执行平均池化。第三层,即浅蓝色的图层,在为每个子区域提供平均池化服务之前,将特征地图划分为33个子区域。最后,对每个低维特征图进行上采样到与原始特征图(最后一个蓝色层)相同的大小,然后进行卷积层,生成最终的预测图。
  3. FPN [31]是一个特征提取器创建与准确性和速度在这样一个金字塔的想法。FPN取代了探测器,比如更快的CNN的提取器[41]。图像识别生成许多特征图层(多尺度特征图),其质量优于传统的特征金字塔。FPN还利用自层、自上而下和自下而上的交互模式中的特殊构造的变形器,将任何特征金字塔更改为另一个大小相同但具有更丰富上下文的特征金字塔。简单的查询、键和值操作(公式(1))证明了它在选择信息丰富的长期交互方面的重要性,这符合我们在适当大小下的非局部交互的目标。
    描述了使用低级“像素”的视觉质量的高级特征。每个级别的特征图(红色、黄色和蓝色)被调整到匹配的地图大小,并在发送到卷积层之前与原始地图连接,卷积层将它们调整到精确的“厚度”。高分辨率的特征从高金字塔级的特征图上采样,这在空间上更粗糙,但在语义上更健壮。空间分辨率被上采样两倍,最近的邻被使用简单。每个横向链接都结合了来自相同空间大小的自下而上和自上而下路径的特征地图。为了最小化通道尺寸,从自下而上开始的过程中的特征映射是卷积的(11次)。
    此外,元素级添加还用于组合来自自下而上和自上而下的路径的特征映射。最后,对每个合并后的映射进行33次卷积,形成最终的特征映射,以减少上采样的混叠影响。这最后一组特征地图对应于精确的空间维度。由于金字塔的所有层,如标准的特征图像金字塔,都使用联合分类器/回归器,输出d处的特征维数固定在 d = 256 d=256 d=256。因此,所有进一步的卷积层的输出都是256个通道的。

2.1.3 环境和深度学习配置

在这里,对于前70%的训练迭代,采用了0.25的随机深度丢弃(stochastic depth dropout),而在最后20%中将丢弃率提高到0.6。对于多尺度翻转测试,测试尺度设置为0.5、0.75、1.0、1.25、1.5和1.75,并按照标准实践进行随机水平翻转(如文献中所示,例如[12, 13, 31, 37]),在所有实验中都遵循这一做法。

作为优化器,使用学习率(LR)调度和随机梯度下降(SGD)来优化具有适当平滑特性的损失函数。对于三个数据集的所有实验,权重衰减和动量分别固定为0.25和0.75。Thailand Landsat-8数据集的初始学习率设定为0.0001,而ISPRS Vaihingen数据集的初始学习率为0.001。最后,在融合层中采用批量归一化,并使用批量大小48进行处理,图像的边长调整为512像素。

2.2 Aerial and Satellite Imagery

在我们的实验中,数据主要来源于三种数据集:一个公共数据集和两个私有数据集。私有数据集是来自泰国政府地理信息与空间技术发展局(GISTDA)拥有的“Landsat-8”卫星的中等分辨率影像。由于有两种不同的标注,Landsat-8数据被分为两类(Isan和North数据集),如表1所示。公共数据集则由“ISPRS Vaihingen(斯图加特)”标准基准的高分辨率影像组成。

在我们的研究中,使用了两种类型的数据集:卫星数据和航空数据。表1展示了一种航空数据集(ISPRS Vaihingen数据集)和两个卫星数据集(TH-Isan Landsat-8和TH-North Landsat-8数据集)。Vaihingen数据集包含16个补丁。这些数据是在不同分辨率的特定位置收集的。
在这里插入图片描述

2.2.1. North East (Isan) and North of Thailand Landsat-8 Corpora

泰国东北部的伊萨地区以缓缓起伏的地形为特征,海拔大多在90至180米(300至600英尺)之间,从西部的培查布山脉向东坡降至湄公河。该高原分为不同的平原:文河和吉河流域排水南部的霍拉平原,而黎河和宋克拉姆河则排水北部的萨贡那空平原。这两个平原之间由普潘山脉隔开。该地区的土壤主要为沙质,含有大量盐矿。

泰国北部以其多样的地形而闻名:低矮的丘陵、交错的山脉和山谷,拥有大面积适合种植的土地,如玉米、菠萝和橡胶树。平、旺、勇和南河流经山谷向南,最终在泰国中部的那空沙旺省汇合形成昭披耶河。

该数据集中的所有图像均在泰国北部和伊萨地区(Changwat)拍摄。Landsat-8卫星为数据收集做出了贡献,包括1420张北部数据集和1600张伊萨数据集的卫星图像,具体样本见图3和图4。该数据集拥有大量中等质量的图像(46,128 × 47,616像素);玉米(黄色)、橡胶树(红色)和菠萝(绿色)是三个类别。北部数据集共1420张图像,分为1000张训练图像、300张验证图像和120张测试图像。伊萨数据集共1600张图像,分为1000张训练图像、400张验证图像和200张测试图像,以便与其他基线方法进行比较。

在这里插入图片描述

在这里插入图片描述

2.2.2. ISPRS Vaihingen Corpus

我们的基准数据集是ISPRS语义分割挑战赛[32](图5和图6),位于德国斯图加特的Vaihingen。ISPRS Vaihingen数据集包含3波段的IRRG(红色、红外和绿色)图像数据,以及相应的NDSM(标准化数字表面模型)和DSM(数字表面模型)数据。后者突出了33个场景,分辨率约为2500 × 2000像素,精度约为9厘米。根据先前的方法,场景5、7、23和30被从训练集中剔除,作为测试集。

2.2.3. Evaluation Metrics

真负(TN)是模型正确预测负类的结果。类似地,真阳性(TP)是模型正确预测阳类的结果。假阴性(FN)是模型错误预测为负类的结果,而假阳性(FP)是模型错误预测为阳类的结果。

F1是精确率和召回率的加权平均。因此,这个得分需要同时考虑假阴性和假阳性来验证计算。然而,准确率(Accuracy)的计算并不简单。尽管F1在不平衡类别分布下通常比准确率更有价值,但只有当假阳性和假阴性的成本相似时,准确率才能得到。

值得注意的是,对于所有数据集,评估“预训练的SwinTF与解码器设计”的性能时,使用F1和准确率进行评估。交集(IoU)、F1、精确率、召回率和准确率指标用于评估特定类别的性能;召回率和准确率的和谐平均用于计算。核心指标包括精确率、召回率、IoU、F1以及准确率,准确率通过将正确分类的位置数量除以参考位置的总数来实现。根据公式(4)–(8),准确率、IoU和F1指标可以表示为:
在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值