语义分割论文阅读笔记2

A Lightweight Complex-Valued DeepLabv3+ for Semantic Segmentation of PolSAR Image,2022,SCI Q1

论文地址

摘要

语义图像分割是一种端到端的分割方法,可以对目标区域进行逐像素分类。作为光学图像中经典的语义分割网络,DeepLabv3+能够实现良好的分割性能。然而,当该网络直接用于极化合成孔径雷达(PolSAR)图像的语义分割时,很难获得理想的分割结果。原因是由于 PolSAR 数据集较小,很容易产生过拟合。在本文中,提出了一种轻量级复值 DeepLabv3+ (L-CV-DeepLabv3+),用于 PolSAR 数据的语义分割。与原来的 DeepLabv3+ 相比,它有两个显着的优势。首先,所提出的网络具有简化的结构和参数,可以适用于小PolSAR数据,因此可以有效避免过拟合。其次,所提出的复值(CV)网络可以充分利用PolSAR数据的幅度和相位信息,从而带来比实值(RV)网络更好的分割性能,并且相关的CV操作在数学意义。两个 Flevoland 数据集和一个 San Francisco 数据集的实验结果表明,与原始 DeepLabv3+ 和其他一些 RV 语义分割网络相比,该网络可以获得更好的总体平均值、并集平均交集和平均像素精度。

引入

合成孔径雷达(SAR)具有全天时、全天候的成像能力,在军事和民用领域都具有非常重要的作用。作为极化合成孔径雷达(PolSAR)领域的研究热点之一,其在土地覆盖分类具有重要意义。早期的分类方法主要分别基于统计分布和物理散射机制。 然而,这些方法只利用了目标的一些浅层特征,精度不够高。为了提高土地覆盖分类的精度,一些基于机器学习以及深度学习的方法被用于PolSAR图像分类。这些方法的缺点是分类结果容易受到散斑噪声的影响,且计算量较大

对于PolSAR图像的语义分割,主要关注土地覆盖。由于最初的语义分割网络是针对光学图像提出的,因此这些网络的输入数据是实值(RV)。然而,单偏振 SAR 和极化 SAR 数据都是复值 (CV)。为了充分利用SAR数据的幅度和相位信息,还提出了一些CV语义分割网络,取得了良好的分割结果,但这些网络中涉及的一些数学运算在数学意义上并不严格正确

引出方法

提出了一种轻量级复值 DeepLabv3+ (L-CVDeepLabv3+) 用于 PolSAR 图像的语义分割,以获得比基于深度学习的经典 RV 分割网络更好的分割性能。所提出的网络的结构和参数在原始DeepLabv3+的基础上进行了简化,并且该网络中涉及的所有CV操作在数学上都是严格的。使用两个Flevoland 数据集和一个 San Francisco 数据集来验证所提出网络的有效性。

方法

L-CV-DeepLabv3+的总体架构如图所示。它包括两个模块:
1)编码器。包含骨干网络、复值空洞空间金字塔池化(CV-ASPP)和大小为 1 × 1 的 CV 卷积(CVConv)操作。
2)解码器。包含大小为 1 × 1 和 3 × 3的 CV-Conv 操作,以及两个比率为 4 的上采样操作。在解码器的末尾,有一个Magnitude操作,在最终的 softmax 操作之前将 CV 输出转换为 RV。
所提出的网络中的每个卷积操作后面都有一个 CV 激活函数和 CV 批量归一化
总体框架

  • 主干网络
    原始DeepLabv3+通常选择ResNet、Xception、MobileNet作为骨干网络。然而,当这些深层结构直接用于PolSAR图像的语义分割时,由于 PolSAR 数据集较小,很容易产生过拟合,导致分割结果不佳。因此提出了一种轻量级复值Xception(L-CV-Xception) 作为骨干网络。
    主干网络
    它包含三个部分:1)入口流,2)中间流,3)出口流。入口流每层卷积核的数量减少到原来的1/2或1/4左右。中间流每层卷积核的数量减少为原来的1/4,结构的重复次数减少为10次,这是通过实验得到的。出口流每层卷积核的数量减少为原来的1/4。总体而言, L-CV-Xception 比原始 RV Xception 更轻。
    CV-SepConv操作。 第一步是复值深度卷积(CV-DWConv)操作,第二步是复值逐点卷积(CV-PWConv)操作。两个步骤的示意图如图所示,(a) CV-DWConv operation. (b) CV-PWConv operation。
    在这里插入图片描述
  • CV空间金字塔池化(Complex-Valued Atrous Spatial Pyramid Pooling,CV-ASPP)
    在这里插入图片描述

CV-ASPP 和原始 ASPP 的主要区别在于:
1、CV-ASPP中的所有操作都是CV,而原始ASPP中都是RV操作。
2、CV-ASPP中去掉了原来ASPP中的全局池化。主要是由于主干网络的输出特征尺寸太小,无法用于池化层获取全局特征,而且可以避免数学意义上复杂的CV池化操作。

  • 解码器
    解码器中使用了从L-CVXception和CV-ASPP获得的特征图。 L-CV-Xception 的特征图表示低级特征,而 CV-ASPP 的特征图表示高级特征
    由于CV softmax运算在数学意义上比较复杂,因此在将提取的特征图从CV转换为RV时使用了Magnitude运算,这不会导致整个网络向后传播中的信息丢失。在解码器的末端,使用softmax分类器来获得最终的语义分割结果。

实验及结果分析

  • 评价指标
    在这里插入图片描述
    为了清楚地解释骨干网络的结构和参数对分割性能的影响,对中间流结构的重复次数进行实验,在三个数据集上分别进行。将重复次数从2变为16,图中显示其他结构和参数不变时,L-CV得到的OA、MPA和MIOU 。从而选择 10 作为三个数据集的中间流结构的重复次数。
    在这里插入图片描述
    消融实验
    在这里插入图片描述
    对比实验
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述

总结

本文提出了一种轻量级的L-CV-DeepLabv3+用于PolSAR图像的语义分割。详细介绍了主干网络、CV-ASPP和解码器的结构。它们在原来的DeepLabv3+的基础上进行了简化,L-CV-DeepLabv3+涉及的所有操作在数学上都是严格的。由于提出的网络是CV,因此还引入了CV输入数据。此外,考虑到三个PolSAR数据集都很小,还给出了包括数据扩展在内的数据预处理。最后,在三个 PolSAR 数据集上进行了语义分割实验。主干网络结构和参数选择的实验结果表明,合适的结构和参数可以有效提高分割性能。三个数据集语义分割的实验结果表明,所提出的轻量级网络可以避免过度拟合,并且PolSAR数据的相位信息对于提高分割性能非常有帮助。由于所提出的网络的结构和参数是通过一些实验获得的,因此需要花费很多时间并且可能无法达到最佳的分割性能。未来,我们将使用搜索策略来获得CV网络的最优结构和参数。

  • 9
    点赞
  • 28
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值