An improved U-Net method for the semantic segmentation of remote sensing images, 2022,SCI Q2
摘要
目前在自然场景中训练的深度神经网络模型不能很好地迁移和应用于遥感图像语义分割。研究表明,包含模型融合的微调方法可以缓解这种困境。在本文中,我们提供了一种用于改进 U-Net 的方法,并提出了一种结合了 DenseNet、U-Net、扩张卷积和 DeconvNet 优点的端到端深度卷积神经网络(DCNN)。我们在Potsdam正射影像数据集上评估了所提出的方法和模型。与U-Net相比,我们的方法将PA、mPA和mIoU评估指标分别提高了11.1%、14.0%和13.5%;分割速度提升约1.18倍,参数数量为U-Net的59.0%。实验表明,对于高分辨率遥感图像的语义分割,使用组合扩张卷积作为主要特征提取器,使用转置卷积来恢复特征图的大小,减少层数是一种有效的方法。提高U-Net的综合性能。该研究丰富了基于DCNN的模型以及在特定场景中使用DCNN的模式。
引言
图像语义分割(ISS)为感兴趣的目标或前景分配一定的语义信息或语义标签,并区分背景。大多数传统的ISS方法基于特定的分类器。缺点是当图像背景复杂或目标实例较多时,分割不清晰、结果粗糙、分割类型单一。 随着计算能力的进步和人工深度神经网络(DNN)的复兴和繁荣,基于深度学习的图像语义分割方法(ISSbDL)显着消除了上述情况。这种方法可以预测像素来标记语义,这也是深度学习在高级计算机视觉任务中发展为细粒度推理的必要性。近年来,研究人员提出了各种 ISSbDL 方法。其中,基于区域分类的代表方法有RCNN、Mask-RCNN、DeepMask、SharpMask,基于像素分类的代表方法有DeepLab、SegNet、PSPNet和DeconvNet。遥感图像的语义分割也越来越多地采用ISSbDL的方法,有效地解决了人工目视判读或传统算法带来的自动化程度低、分割结果不准确、泛化能力差等问题,成为遥感图像语义分割的热点和难点。
尽管ISSbDL有效解决了传统ISS方法应用于高分辨率遥感图像时的许多问题,但没有一个深度神经网络(DNN)在所有指标上都占上风,包括分割速度、精度、内存开销和模型大小。 而且,大量研究表明,提到的 DNN 在不同指标上往往占据主导地位。因此,仍然有必要继续研究更好的模型来分割不同的场景或不同类型的特征。
现有遥感图像分割的挑战: 与生活场景图像相比,遥感图像的内容更加复杂,混合像素削弱了单个像素的分类信息。一些地面物体(例如建筑物)通常表现出较高的类内变异性和较低的类间变异性。而且,高光谱遥感图像的波段信息之间存在耦合关系。这些使得将 DNN(那些为生活场景理解而构建的神经网络)应用于遥感图像变得并不容易。
引出方法
鉴于上述考虑,该研究通过一种新的思维方式,结合了DenseNet、U-Net、扩张卷积和DeconvNet的特点,提出了一种修改U-Net的方法,用于高分辨率遥感图像的语义分割。该研究设计了一种名为 AtrousDenseUDeconvNet(U 表示使用 U-Net 架构的中介模型)的端到端模型,该模型在高分辨率遥感影像的语义分割中使用的参数较少。
方法
该研究使用两个系列的密集块作为主要特征提取器。通过两个过渡层,特征图的大小变为原始大小的 1/4。更高层的特征提取和特征图生成使用U-Net结构。为了进一步减少模型参数数量,缓解深度神经网络的梯度消失问题,本文提出的模型用单个正则卷积作为中间层代替了U-Net中的“Conv-Conv”模式,使得特征图的大小是原始大小的 1/4。然后,该研究使用两个步长为2的转置卷积将特征图的大小恢复为输入图像的大小。最后,该研究使用步长为 1 的转置卷积和 softmax 分类器来输出像素级类别预测。如图所示为网络模型结构。
- 扩张卷积
扩张卷积扩大了感受野,在不损失分辨率的情况下聚合全局信息,这有利于解决语义分割中的密集预测问题。 - 密集连接的卷积网络
DenseNet的跳跃连接有效缓解了梯度消失问题,提高了梯度的传播速度。由于不必学习冗余特征图和重用特征,DenseNet 大幅减少了参数数量 。
不同之处在于,我们的带孔密集块没有采用“每个层从所有先前层获取额外输入并将其自己的特征图传递到所有后续层”的设计,而是将块的输入与一系列卷积的输出。这种设计不仅考虑了梯度反向传播和多尺度特征融合的效率,而且避免了特征图维度增长过快的问题。使用带孔的级联密集块来提取主要特征可以获得更密集的特征图。本研究中使用的过渡层包括带有修正线性单元 (ReLU) 的常规卷积层、平均池化层和批量归一化层。由于带孔密集块的独特设计,不需要使用1*1卷积作为瓶颈层来减少输出特征图的数量。
本文提出的模型使用带孔的密集块来提取主要特征,使用逐渐增加扩张因子的扩张卷积来获得更宽的感受野和不同尺度的特征图,并在不增加参数数量的情况下进行特征融合暴露上下文信息。
- 转置卷积
为了解决由于不可学习的参数导致的详细信息的丢失,本文提出的模型使用步长为2的转置卷积来逐渐恢复特征图的大小并恢复像素位置信息。
实验及结果分析
- 实验数据集
由国际摄影测量和遥感探测协会 (ISPRS) 提供Potsdam true orthographic (TOP) data set。 - 实验参数量对比
Experiment M1, AtrousDenseUDeconvNet
Experiment M2, AtrousDenseUDeconvU-Net
Experiment M3, LightU-Net
Experiment M4, AtrousDensehUDeconvNet
Experiment M5, U-Net
Experiment M6, ConvUConv
- 不同模型的综合评价
- 不同模型对不同特征类型的语义分割评价对比表
在本研究中,研究采用衡量模型分类准确性的top N准确率作为评价指标。由于对六种类型的对象进行了分类,因此该研究仅使用前 1、前 2 和前 3 种准确度。
- U-Net和AtrousDenseUDeconvNet在不同目标上的语义分割评估
- 不同模型的综合评价
- 不同目标上不同模型的评估