DeepLab: Semantic Image Segmentation

DeepLab: Semantic Image Segmentation with
Deep Convolutional Nets, Atrous Convolution,
and Fully Connected CRFs 论文学习笔记:

最近在做场景分割的时候看到的一篇文章。它的deeplab v2 在PASCAL VOC12上正确率达到了79%,暂时是正确率最高的算法。

它针对了传统方法的3个不足:
1. reduced feature resolution (repeated combination of max-pooling and down sampling )
2. existence of objects at multiple scales
3. reduced localization accuracy due to DCNN invariance.

做了以下优化:
1. DCNN 原来是用于图像分类的,但是这里用于语义分割。所以把最后几个 down sampling 改成unsampling,这个是 feature map compute at higher layers (创建了一个atrous convolution 来代表unsampleing, 可以enlarge 参数或者计算量)
2. 传统方法是把image 强行转成相同尺寸。但是这样会导致某些特征扭曲或者消失。作者motivated by spatial pyramid pooling(空间金字塔池化)这个是用来去除网络固定大小的限制,使用了ASPP (atrous SPP)来解决这个问题
3. 解决DCNN invariance 可以选择skip 一些layers。不过作者是选择 全连接的CRF

这样做的优势 是: 速度快,准确率高,结构简单(RES-101 + CRF)。

结构图如下:
这里写图片描述

下面是上述3个改进的具体说明:

  1. 对于repeated convolution导致分辨率丢失的问题,作者采用了一个叫做atrous convolution 的卷积操作。
    这里写图片描述
    作者添加了一个rate 来跳过若干个相邻的卷积核。这个起到了maxpooling+ convolution的左右。

    这里写图片描述
    这个atrous convolution 结合了传统的downsampling,convolutio 和upsampling,得到的图像大小相同,但是特征明显清晰了很多。

  2. 对于第二个问题:为了处理多尺寸图像,作者借鉴了SPP 的思路,设计了一个叫做ASPP 的网络。
    这里写图片描述

    这里写图片描述

这个就是通过不同的A convolution 来对图像进行不同程度的缩放,得到不同大小的input feature map,(可以理解成SPP中使用不同大小的proposal)

这样ASPP 就保证了deeplabNet 可以处理不同尺寸的图片。

  1. 对于第三个问题,作者采用了CRF
    CRF 就是对于相邻的相似点进行建模,是的相同的模块更加清晰。

这里写图片描述
这里直接上图对比下有无CRF 的结果对比。

  • 1
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 2
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值