DeepLabv3+图像语义分割学习 + 实践笔记 (一) 原理和网络结构

DeepLabv3+ 图像语义分割 (一)

labelme标记图形
tensorBoard查看分割性能

图像分割任务以及常用数据集

  • 定义:图像分割(image segmentation)
    • 根据某些规则将图片分成若干个特定的、具有独特性质的区域,并抽取出感兴趣的目标
  • 子领域
    • 语义分割 semantic segmentation
    • 实例分割 instance segmentation
    • 全景分割 panoptic segmentation
      在这里插入图片描述
  • 与其他任务的区别
    在这里插入图片描述

语义分割

  • 从像素层次来识别图像,为图像中的每个像素指定类别标记(稠密预测)
    在这里插入图片描述
  • 语义分割任务的表达
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述

常用数据集

PASCAL VOC 2012 Segmentation Competition
COCO 2018 Stuff Segmentation Task
BDD100K:A Large-scale Diverse Driving Video Database
Cambridge-driving Labeled Video Database(Camvid)
Citycapes Dataset
Mapillary Vistas Dataset
ApolloScape Scene Parsing

DeepLabv3+网络结构和原理

  • Deep Labelling for Semantic Image Segmentation

DeepLabv3+网络结构

在这里插入图片描述

编码器/解码器(encoder/decoder)结构
  • 对输入的空间分辨率进行下采样,得到较低分辨率但经学习可以高效地 区分类别的特征图,然后上采样特征表示为全分辨率的分割图。
  • DownSampling(下采样)
    • Pooling,strided convolution
  • Upsampling(上采样)
    • Unpooling
    • bilinear upsampling
    • strided transpose convolution
      在这里插入图片描述
卷积运算

在这里插入图片描述

空洞卷积或者膨胀卷积 DCNN
  • Dilated/Atrous Convolution/Convolution with holes
    在这里插入图片描述
    (a). F1 is produced from F0 by a 1-dilated convolution; each element in F1 has a receptive field of 33.
    (b). F2 is produced from F1 by a 2-dilated convolution; each element in F2 has a receptive of 7
    7.
    ©. F3 is produced from F2 by a 4-dilated convolution; each element in F3 has a receptive of 15*15.
    与每个层相关联的参数数量是相同的。感受野呈指数增长,而参数数量呈线形增长。
  • 语义分割网络中引入膨胀卷积
    • 增大网络的感受野
    • 减少特征图像尺寸的损失
  • 采用不同的方式来增大神经元的感受野
    • 传统卷积通过添加池化层
    • 膨胀卷积在卷积核中插入零元素,对卷积核上采样,可避免池化层引起的信息缺失
  • atrous convolution 扩大感受野 (一维解释)
    在这里插入图片描述
    (a)在低分辨率输入特征图上使用标准卷积(rate=1)进行稀疏特征提取
    (b)在高分辨率输入特征图上利用rate=2的膨胀卷积进行密集特征提取
  • atrous convolution 扩大感受野 (二维解释)
    在这里插入图片描述
    上行:在低分辨率输入特征图上使用标准卷积进行稀疏特征提取
    下行:在高分辨率输入特征图上利用rate=2的膨胀卷积进行密度特征提取
  • 各种版本的DeepLab总结对比
    • DeepLabv1: 使用空洞卷积来明确控制在深度卷积神经网络中计算特征响应的分辨率。
    • DeepLabv2: 使用ASPP(Atrous Spatial Pyramid Pooling)以多个采样率和有效视野的滤波器对多个尺度的目标进行鲁棒分割。
    • DeepLabv3: 使用图像级别特征增强ASPP模块以捕获更长距离的信息。还引入BN,以促进训练。
    • DeepLabv3+: 用一个简单有效的解码器模块扩展DeepLabv3优化细分结果,尤其是沿目标边界。此外,在这种编码器-解码器结构中,可以通过空洞卷积任意地控制所提取的编码器特征的分辨率,以折衷准确率和运行时间。
DeepLabv3结构特点
  • 主要特点
    • 采用预训练的ResNet-50或ResNet-101来提取特征
    • 修改第四个残差块,采用膨胀卷积(模块内的三个卷积采用不同的膨胀率)
    • 加入image-level的ASPP
      在这里插入图片描述
获取多尺度上下文的架构比较

在这里插入图片描述
(a)图像金字塔(如SIFT)
(b)编码-解码框架
(c)采用不同尺度的膨胀卷积
(d)空间金字塔池化:使得任意大小的特征图利用多尺度特征提取都能够转换成固定大小的特征向量

采用及联模块和带孔卷积提取多尺度信息
  • Cascaded modules without and with atrous convolution
  • output stride:the ratio of input image spatial resolution to the final output resolution(before global pooling or fully connected layer)
    在这里插入图片描述
    (a)传统卷积,随着深度增大,特征图尺寸减小
    (b)带孔卷积,避免特征图尺寸减小
具有图像级功能的 ASPP 的并行模块

在这里插入图片描述

  • 修改第四个残差块,采用膨胀卷积(模块内的三个卷积采用不同的膨胀率)
DeepLab v3+
DeepLabv3改进
  • Spatial pyramid pooling module(a) + encoder-decoder structure(b)
    在这里插入图片描述
DeepLab-v3+网络结构
  • DeepLab-v3+
    • 通过添加一个简单有效的解码器模块来扩展DeepLab-v3,以优化分割结果,尤其是沿着目标边界
    • 将深度可分离卷积(参考Xception)应用于ASPP和解码器模块,从而产生用于语义分割的更快和更强的编码器-解码器网络
      在这里插入图片描述
深度可分离卷积

https://www.cnblogs.com/hellcat/p/9726528.html
在这里插入图片描述

  • 3*3 Depthwise separable convolution decomposes a standard convolution into:
    • (a) a depthwise convolution (applying s single filter for each input channel) and
    • (b) a pointwise convolution (combining the outputs from depthwise convolution across channels)
    • © In this work, we explore atrous separable convolution where atrous convolution is adopted in the depthwise convolution,as shown in © with rate=2
Xception架构
  • Xception架构是具有残差连接的深度可分离卷积层的线性堆叠
  • SeparableConv是修改后的深度可分离卷积
    在这里插入图片描述
  • 修改后的Xception架构
    • more layers(same as MSRA’s modification except the changes in Entry flow)
    • all the max pooling operations are replaced by depthwise separable convolutions with striding
    • extra batch normalization and RELU are added after each 3*3 depthwise convolution, similar to MobileNet
      在这里插入图片描述
  • 16
    点赞
  • 99
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 4
    评论
图像语义分割是指对图像中的每个像素进行语义信息标注的任务。它广泛应用于自动驾驶、肝癌检测等领域。语义分割的难点主要来自物体层次、类别层次和背景层次。这意味着语义分割任务需要在复杂多变的背景下正确标记出语义信息,并区分具有高度相似外观的不同类别物体。\[1\] 在图像语义分割中,有传统方法和基于神经网络的方法。传统方法包括显式特征方法、基于概率图模型的方法和无监督学习方法。而基于神经网络的方法则隐式地建立了像素到语义的映射,不需要后期人工参与即可完成整个分割过程。\[2\] 深度学习模型在图像语义分割中起到关键作用。其中,全卷积网络(FCN)是语义分割深度学习模型的开山之作,它建立了一种用于图像语义分割的通用模型框架。FCN通过有效推理和学习,可以输入任意尺寸的图像,并生成相应尺寸的输出,实现像素到像素的映射。此外,FCN还提出了多项参数用于衡量模型的性能表现,如像素正确率、平均像素正确率、平均交叠率和平均加权交叠率。\[3\] 除了FCN,还有其他深度学习模型如PNPNet,它通过空间池模块和空间场景解析网络,利用不同区域的上下文聚合全局上下文信息的能力,为像素级预测任务提供了优越的框架。\[3\] 总之,深度学习模型在图像语义分割中发挥着重要作用,通过训练和优化参数,可以实现图像中每个像素的语义信息标注。 #### 引用[.reference_title] - *1* *2* *3* [【论文阅读笔记图像语义分割深度学习模型综述(张新明等)](https://blog.csdn.net/box0115/article/details/113395028)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v91^insert_down1,239^v3^insert_chatgpt"}} ] [.reference_item] [ .reference_list ]

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 4
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

王二小、

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值