语义分割论文阅读笔记3

An improved Deeplabv3+ semantic segmentation algorithm with multiple loss constraints,2022,SCI Q1

论文地址

摘要

针对当前语义分割算法中分割精度低、对象边界分割不准确的问题,提出利用多重损失函数约束和多级级联残差结构的语义分割算法。采用多层级联残差单元来增加网络层感受野的范围。构建并行网络提取不同深度特征信息,然后将不同深度特征信息与编码器输出特征融合,得到多个输出特征,与标签建立多个损失,从而约束模型优化网络。所提出的网络在 Cityscapes 和 CamVid 数据集上进行了评估。实验结果表明,该算法的平均交并比(MIoU)比原始Deeplabv3+算法分别提高了3.07%和3.59%。

引入

2015年,全卷积神经网络(FCN) 的被提出,与传统的分割算法相比,FCN在分割精度上有很大的提高,但在小目标物体的分割中分割效果较差。 其问题在于仅依赖高层特征信息对像素进行分类,缺乏利用细节信息丰富的低层特征图像,导致网络最终分割结果较为粗糙。因此,如何合理利用底层特征信息来增强语义分割效果已成为研究的热点问题
为了解决这个问题,研究人员提出了一些使用编解码器结构的语义分割模型,例如U-Net 、Refinenet和SegNet、PSPNet。它们利用编解码器结构来补充上采样过程中模型较低采样丢失的细节,以提高模型的分割性能。或利用注意力机制加强网络对重要特征的学习和注意力也是提高语义分割效果的一个途径。
此外,陈等人提出了Deeplab系列语义分割模型,其中V1提出用空洞卷积代替池化层,以避免细节信息的丢失并获得更大的感受野范围。此外,在模型末尾添加了条件随机场(CRF)来优化边界分割。在DeepLabV2中,提出了避免空间金字塔模块来获取多个尺度的全局语义信息。随后,DeepLabV3和DeepLabV3+再次改进了空空间金字塔模块,并取代Inception作为新的骨干网络,成为当前语义分割领域最有效的语义分割算法。

主流语义分割算法通过利用底层特征信息、提取多尺度上下文信息以及注意力机制来提高分割算法的准确率。因此,如何在上采样过程中找到合适的底层特征信息来帮助恢复图像,获得更多的尺度语义信息构建合适的注意力机制模块以增强像素之间的依赖性已成为一个热点研究问题。

引出方法

本文从捕获多尺度语义信息复用底层特征出发,改进了原有骨干网络模型的基本残差单元和损失函数。
首先,利用多级残差结构来获取更多尺度语义信息。
其次,构建多损失函数约束模型,以在优化过程中使用底层特征信息。
最后,使用多个数据集来验证所提出的算法。

相关工作部分:简介ResNet101主干网络和Deeplabv3+模型

方法

总体框架
·首先,采用标准化、随机裁剪等操作来处理数据集。
·其次,采用多级耦合残差结构构建主网络,增加残差块的感受野以提取具有多尺度信息的特征。然后利用空空间模块进一步提取多尺度金字塔语义信息。
·最后,将提取的多尺度语义信息的特征图像与不同深度的网络特征融合,构造多个损失函数来约束模型优化方向,并通过上采样得到预测结果。

  • 主干网络
    使用Res2Net结构作为基本单元来构建语义分割框架的骨干网络。如下图所示,Res2Net结构在单个残差单元中构建了多层类似的残差级联结构,与传统残差单元结构相比,可以获得更大的感受野范围和更多的尺度表示能力
    Res2Net
    过程:
    1、1×1卷积核输出的特征图在通道维度上均匀划分为S个特征块i1~is;
    2、从i2开始,下一个特征块经过3×3卷积后,对通道数进行concat操作。因此,从j2开始的输出特征块包含了其左侧的所有特征信息,并且随着S的增大,输出特征图的感受野范围间接增大。
    3、j1~js进行拼接融合,通过1×1卷积减少通道数,得到输出特征。

  • 多个损失函数约束模型优化
    为了使浅层网络的特征有效地获得语义分割结果,建立了多个损失函数来约束模型的优化方向,如图所示。
    损失函数

具体
1、残差网络最终输出的特征图Out经过两次上采样,然后与Block2输出的特征图Feature map2进行通道融合,再上采样8次,构建标签图像中间层损失。
2、使用特征图Feature map3和残差网络Block3输出的out特征图进行通道融合,经过16倍上采样后,与标签图像构建高层损失。

每个损失部分包含不同网络深度的特征信息,有助于模型在反向传播过程中尽可能利用浅层特征信息来修正模型参数。

采用权重自适应方法对不同的损失部分分配不同的权重,得到总损失函数。
在这里插入图片描述

实验及结果分析

  • 实验数据集
    1、Cityscapes 数据集。来自于文献:CORDTS M, OMRAN M, RAMOS, etal. The cityscapes dataset for semanticurban scene understanding[C]. Proceedings ofthe IEEE conferenceon computer vision and pattern recognition, 2016:32133223.
    2、CamVid数据集。来自于文献:[1]BROSTOW GJ,SHOTTO NJ,FAUQUEUR J,etal. Segmentation and recognition using structure from motion point clouds[C].European conferenceon computer vision, 2008:44–57. 26. [2]BROSTOW GJ,FAUQUEUR J,CIPOLL AR. Semantic object classes invideo: Ahigh-definiti on ground truth database[J]. Pattern Recognition Letters, 2009, 30(2):88–97.
  • 评价指标
    mPA
    Miou
  • 对比实验
    在这里插入图片描述
  • 在两个数据集各类别上的分割效果
    在这里插入图片描述
    在这里插入图片描述
  • 消融实验
    在这里插入图片描述

总结

本文针对传统Deeplabv3+图像语义分割算法不能充分复用多尺度特征信息和底层特征的问题,提出一种结合多损失约束模型优化的改进Deeplabv3+算法。首先,用 Res2Net 替代 ResNet101 的方案。与传统的残差单元结构相比,可以获得更大的感受野范围和更多的尺度表示能力,解决主干网络基本特征提取能力差的问题; 其次,本文创新性地为网络构造了一个由多个损失函数组成的新损失函数,使网络更有效地收敛;最后,本文将多个损失函数形成的新损失函数Res2Net与金字塔空间模块结合在一起,提出了一种新的更高效的网络。

算法的改进依赖于多层类残差结构来获得更好的表示特征,并且在反向传播过程中使用多重损失函数来限制模型优化的方向,这导致了两个问题:第一,模型训练会消耗更多的计算资源并降低实时性能。其次,多重损失函数的构造取决于人工设计的质量,因此很难保证多重损失函数的有效性。

  • 17
    点赞
  • 38
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值