语义分割的几种网络模型

Deeplabv3+网络

Deeplabv3+网络

简介

deeplabv3+是现今性能最好的语义分割模型之一。图像分割是计算机视觉中除了分类和检测外的另一项基本任务,它意味着要将图片根据内容分割成不同的块。相比图像分类和检测,分割是一项更精细的工作,因为需要对每个像素点分类,如下图的街景分割,由于对每个像素点都分类,物体的轮廓是精准勾勒的,而不是像检测那样给出边界框。

主要工作

  1. 原DeepLabv3当作encoder,添加decoder得到新的模型(DeepLabv3+)。
  2. 把Xception和Depthwise separable convolution应用到Atrous Spatial Pyramid Pooling和decoder中。
  3. 深度可分离卷积(Depthwise separable convolution)。
  4. epthwise convolution是在每个通道上独自的进行空间卷积
    pointwise convolution是利用1x1卷积核组合前面depthwise convolution得到的特征
    tensorflow支持atrous版的depthwise convolution。
    为什么说要用它呢?
    因为它能够保持性能的同时大大减少计算量,举个例子:
    假若输入2通道的特征,输出3通道特征,卷积核大小为3x3
    正常版卷积:
    参数量=2x(3x3)x3=54
    深度可分离卷积:
    参数量=2x3x3+2x1x1x3=24
    注意:第一部分为depthwise convolution(2x3x3),第二部分为
    pointwise convolution(2x1x1x3)

网络整体结构

  1. Encoder
    Encoder就是原来的DeepLabv3,注意点有2点:
输入尺寸与输出尺寸比(output stride = 16),最后一个stage的膨胀率rate为2
Atrous Spatial Pyramid Pooling module(ASPP)有四个不同的rate,额外一个全局平均池化

Decoder
明显看到先把encoder的结果上采样4倍,然后与resnet中下采样前的Conv2特征concat一起,再进行3x3的卷积,最后上采样4倍得到最终结果
需要注意点:

融合低层次信息前,先进行1x1的卷积,目的是降通道(例如有512个通道,而encoder结果只有256个通道)

主干网络

作者在MSRA基础上作了些修改:

更深的Xception结构,并不修改entry flow network结构
所有的max pooling结构被stride=2的深度可分离卷积代替

每个3x3的depthwise convolution都跟BN和Relu
改进后的结构如下:

实验
1.decoder结构上的探索

训练时上采样输出结果比下采样真值提升1.2%

低层次信息通道数多少个比较合适(1x1卷积的通道数)
哪个底层的细节信息较好&3x3的卷积如何构成
验证了U-Net和SegNet类似的解码结构在此网络上并没有多少提升
  1. Backbone为Resnet101的结果
  2. Backbone为Xception的结果
  3. 在Cityscapes数据集上
  • 5
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值