语义分割网络GSCNN+FarSeg

1.语义分割网络GSCNN+FarSeg
1.1 Gated-SCNN (GSCNN)
https://arxiv.org/abs/1907.05740
1.1.1 综述
目前对于图像语义分割形成能表征图像的颜色,颜色,和文本信息的最先进的办法是处理这几种信息在一个深度CNN网络中。由于每种信息对于识别来说包含非常不同的信息,这种全部在一个网络处理的方式不是很理想。因此,提出的双流CNN架构即可解决上述问题。特别地,Gated-SCNN在经典的CNN处理流上设计并行进行形状流分支提取图像中的形状信息。这个架构的关键之处是两个分支的中间层连接方式—创新的门限机制。为了使形状流只关注处理边界相关的信息,使用浅层神经网络的激活函数可以有效移除与边界无关的噪声。实验数据表明GSCNN是一个高效的能产生清晰的预测边界的网络结构,此外,在较细较小的对象检测性能方面也有所提高。
最近公开的城市景观数据集Cityscapes包含进行了像素级的语义理解的标注数据集,Cityscapes拥有5000张在城市环境中驾驶场景的图像(2975train,500 val,1525test)。它具有19个类别的密集像素标注(97%coverage),其中8个具有实例级分割。可以用来训练深度神经网络。GSCNN在Cityscapes数据集上在mIoU和F-score达到最优的效果,超出基准线2-4个百分点。
1.1.2 GSCNN网络
该模型包含两个主要流:常规流和形状流。常规流可以是任何主干网络。形状流主要是包含在常规流的每层输出的残余模块进行处理,门限相关的卷积层等。后续的如图1.1-1右侧绿色模块是将常规流和形状流融合的模块。它利用一个目前流行的网络模型配件空洞空间池化金字塔atrous spatial pyramid pooling (ASPP),该配件模块对给定的输入以不同采样率(rate)的空洞卷积并行采样,达到了多个不同感受野进行捕捉图像的上下文的效果。通过双流语义识别实现了高质量的语义分割和边界图像。
在这里插入图片描述
图1.1-1 GSCNN架构
常规流:
接收输入宽为W高为H的3通道图像,输出提取的像素特征。主干网络一般可以是ResNest和VGG前馈全卷积语义分割网络,由于ResNets是目前先进的语义分割网络,所以可利用ResNet-101和WideResNet 作为常规流的主干网络。
形状流:
接受输入是图像梯度和上述常规流的卷积层,输出是语义边界。网络包含残余模块交错着门限相关的卷积层gated convolution layers (GCL)。GCL是确保形状流只处理边界相关像素信息,我们可以从真值语义分割图获取真值的边缘二值图。我们使用监督的交叉熵损失在输出边界上监督形状流。
融合模块:
接受来自常规流的特征图和来自形状流的保留了多尺度的上下文信息的边界图。对于准确描述,一个存在k类的语义预测,它输出一个代表每个像素属于k类中每一类的概率的类别分布,并且ASPP模块保证了多尺度的上下文信息,是语义分割网络重要组成部分。
门限卷积层(GCL):
由于语义分割和语义边界时间是紧密联系的,门限卷积层即是获取了常规流的信息为形状流分析作准备。GCL是GSCNN架构的核心模块,它使得形状流只处理形状相关信息而过滤掉其余不相关信息。值得关注的是该模块并没有包含常规流的特征而是利用GCL进行选择常规流中图片的高层次的信息。形状流可以视作对图片更高层次的理解,可以在采用高效浅层架构来处理高分辨率图像。
首先在1.1-2图的公式中,将不同层的常规流和形状流的特征图进行连接,然后进行1*1卷积,最后通过sigmoid函数得到注意力图。
在这里插入图片描述
图1.1-2 注意力图
在得到注意力图之后,GCL将形状流的输出特征图和注意力图的元素进行元素点积,加上残差网络后通道加权值得到下式。注意力图利用重要的边界信息给区域加权。
在这里插入图片描述
图1.1-3 GCL的计算公式
实验结果:
在这里插入图片描述
图1.1-4 GSCNN的语义分割和边界结果
在这里插入图片描述
图1.1-5 GSCNN在Cityscapes验证集的IoU和F-score结果
1.2 Foreground-Aware Relation Network (FarSeg)
https://openaccess.thecvf.com/content_CVPR_2020/papers/Zheng_Foreground-Aware_Relation_Network_for_Geospatial_Object_Segmentation_in_High_Spatial_CVPR_2020_paper.pdf

1.2.1 综述
地理观测技术提供了大量的高空间分辨率(HSR)遥感图像,可以精细地描述各种地理空间对象,如船舶、车辆和飞机等,从HSR再遥感图像中自动提取感兴趣的对象,对城市管理、规划和监测等领域非常有帮助。
地理空间对象分割作为对象提取环节中的重要角色,可以为感兴趣的对象提供语义和位置信息,它属于一种特殊的语义分割任务,目标是将图像像素分为前景对象和背景区域两个子集。而与此同时,它需要进一步为前景对象区域的每个像素分配一个统一的语义标签。
地理空间的语义分割任务,与自然场景相比,遥感图像面临着三大挑战1、在HSR遥感图像中,物体总是有较大尺度的变化,这就造成了多尺度的问题,使得物体难以定位和识别。2、HSR遥感图像中背景更为复杂,由于类内差异较大,容易造成严重的误判。3、前景的比例比远小于自然图像。然而,一般语义分割方法主要关注自然场景的尺度变化,没有充分考虑大面积遥感图片场景中通常发生的其他问题。
在本文中,认为问题在于缺少前景建模,并从基于关系的和基于优化的前景建模的角度提出了前景感知关系网络(FarSeg),以缓解上述两个问题。同时,从优化的角度出发,提出了一种基于前景的优化算法,重点关注前景样本和训练背景中的困难样本,以达到均衡优化的目的。使用大规模数据集获得的实验结果表明,该方法优于最新的常规语义分割方法,并在速度和准确性之间取得了较好的折中。
1.2.2 FarSeg网络
为了对遥感图像中的物体分割前景进行显式建模,本文提出了一种前景感知关系网络(FarSeg),如图1.2-1所示。FarSeg由特征金字塔网络(FPN)、前景场景(F-S)关系模块、轻量级解码器和前景感知(F-A)优化组成。FPN负责多尺度对象分割。在F-S关系模块中,首先联系场景语义和F-S关系以改善对前景特征的区分。轻量级解码器设计用于恢复语义特征的空间分辨率。为了使网络在训练过程中集中在前景上,提出了F-A优化来减轻前景背景不平衡的问题。
在这里插入图片描述
图1.2-1 FarSeg网络结构
多分支编码器:
多分支编码器由前景分支和场景嵌入(scene embedding)分支组成。如图1.2-1所示,这些分支建立在一个主干网络上。在所提出的方法中,选择ResNets作为主干网络进行基本的特征提取,与原FPN类似,采用自上而下的路径和横向连接的方式,生成金字塔状的特征图。
在这里插入图片描述
图1.2-2 多分支编码器
其中ζ表示由可学习的1×1卷积层实现的横向连接,Γ表示比例因子为2的上采样。通过这种自上而下的路径和横向连接,可以通过浅层的高空间细节和深层的强语义来增强特征图,这有助于恢复对象的详细信息和多尺度上下文建模。
在C5上附加了分支以通过全局上下文聚合生成地理空间场景特征C6。其中C6用于对地理空间场景与前景之间的关系进行建模。
前景-场景关联模块(F-S):
遥感图像中的背景要复杂得多。这意味着背景中存在更大的类内差异,这会引起误报问题。为了减轻这个问题,提出了前景场景(F-S)关系模块,F-S关系模块首先对前景和地理空间场景之间的关系进行显式建模,并使用潜在的地理空间场景将前景和相关上下文关联。然后利用该关系来增强输入特征图,以增加前景特征与背景特征之间的差异,从而改善前景特征的辨别力。主要思想如图1.2-3所示。
在这里插入图片描述
图1.2-3 F-S关系的概念
如图1.2-4F-S的计算细节所示,对于金字塔特征图vi,F-S关系模块将生成一个新的特征图zi。特征图zi是通过重新编码vi然后使用关系图ri对其进行加权而获得的。关系图ri是地理空间场景表示和前景表示之间的相似度矩阵。为了将这两个特征表示对齐到共享的manifold R中,分别需要两个投影函数来学习地理空间场景和前景。
在这里插入图片描述
图1.2-4 F-S计算细节
如图1.2-5所示,ψθi(·)仅由1×1卷积层,然后依次进行批归一化和ReLU来实现。
在这里插入图片描述
图1.2-5 F-S的投影函数
为了计算关系图ri,需要一个1-D场景嵌入向量(scene embedding vector)u与共享的前景特征图交互。场景嵌入向量u是通过在C6上应用η(·)来计算的。
其中η表示用于地理空间场景表示的投影函数,并且由具有du输出通道的可学习的1×1卷积层实现。每个潜在金字塔共享场景嵌入向量,因为潜在的地理空间场景语义跨越所有金字塔,并且是尺度不变的。
在这里插入图片描述
图1.2-6 一维场景向量u的计算方式
因此,关系图ri可以由下面等式获得。通过逐点内积实现,以简化操作并提高计算效率。
在这里插入图片描述
图1.2-7 场景前景关系图r的计算方式
关系增强前景特征图zi的计算方法如下所示, 其中κwi(·)是带有输入特征图的学习参数的编码器。编码器被设计为引入一个额外的非线性单元,以避免特征退化,因为加权操作是线性函数。因此,该编码器由1×1卷积层,批处理归一化和ReLU实现,以实现高效的参数和计算。公式5包含的ri是用来加权重编码特征图,该归一化的特征图是使用基于一种 self-gating机制的简单sigmoid函数。
在这里插入图片描述
图1.2-8 场景前景关系图r的计算方式
轻量级解码器:
轻量级解码器旨在以轻量级方式从F-S关系模块中获得了关系增强的语义特征图,并恢复其空间分辨率。轻量级解码器的详细架构如图1.2-9所示。
轻量级译码器是通过N次上采样堆叠的单元形成,T(.)是经过33卷积, bn和RELU,U(.)是2倍的上采样来生成与输入图像大小相同的最终类别概率图。
在这里插入图片描述
在这里插入图片描述
图1.2-9 轻量级解码器详细架构
前景感知优化:
轻量级解码器旨在以轻量级方式从F-S关系模块中获得了关系增强的语义特征图,并恢复其前景与背景之间的不平衡问题通常导致在训练过程中背景示例主导了梯度。因为有背景示例的困难部分(分类错误的样本)对于训练后期的优化是有价值的,其中,背景中的困难样本比简单样本要少得多。因此提出了前景感知优化,以使网络集中在前景和背景中的困难样本上,以实现均衡优化。前景感知优化包括两个个步骤:困难样本估计,动态加权和反向传播。困难样本估计的步骤用于获得反映样本的难易程度的权重,以调整像素方向损失的分布。该样本越难表示其权重越大。在Focal loss的基础上做了改进,引入Z函数保证归一化。动态加权和反向传播的步骤。
困难样本估计依赖于模型的判别。然而,在训练的初期,区别是不确定的,这使得很难对样本进行估计。如果使用此不确定的样本权重,则模型训练将不稳定,从而影响聚合性能。为了解决这个问题,提出了一种基于退火函数的动态加权策略,设计了三种退火函数作为候选函数,如表所示。给定交叉熵损失,动态加权损失可表示为:
在这里插入图片描述
图1.2-10 困难样本估计的损失函数
通过这种方式,损失分布的焦点可以随着困难样本估计的置信度的增加而逐步转移到困难样本上。
可视化、消融实验以及对比实验结果:
在这里插入图片描述
图1.2-11 可视化
在这里插入图片描述
图1.2-12 对比实验,数据集: iSAID,实验细节:backbone:ResNet-50,输入图片(896
896)
在这里插入图片描述
图1.2-13 消融实验

  • 0
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值