「Computer Vision」Note on DeepLab V2

QQ Group: 428014259
Sina Weibo:小锋子Shawn
Tencent E-mail:403568338@qq.com
http://blog.csdn.net/dgyuanshaofeng/article/details/80086542

0 摘要

1 介绍

2 相关方法

3 方法

在图1中,DCNN或者backbone采用VGG-16或者ResNet-101。DeepLab V2系统由两部分组成,一个是分割网络,另一个是CRF概率图模型,即我们在分割系统中常见的区域分割和边界优化两步。

图 1

3.1 atrous卷积(dilated 卷积[2])

其作用如文中所述,有两个:第一是密集特征提取(dense feature extraction),第二是扩大感受野/FOV(field of view enlargement)。其基本原理描述就是,convolution with upsampled filters。atrous卷积的目的是缓解池化和大步长卷积造成的空间分辨率损失,减轻这一问题的另一种方案是采样反卷积层(deconvolutional layers),但是这需要额外的内存和计算时间。
atrous卷积应用在1维输入时,如图2所示(一直没看懂为什么是sparse和dense)。

图 2

atrous卷积应用在2维输入时,如图3所示。在二维情况下,就比较好懂,原来将图像进行了下采样就是sparse,不进行下采样就是dense了。我们从特征图中看到,atrous卷积没有带有影响较大的孔洞。其实,图森有个论文[3]就提到如何消除孔洞效应。

图 3

3.2 atrous空间金字塔池化(ASSP)

论文尝试了两种方法来处理尺度变异性(scale variability)。第一种是标准的多尺度处理(multiscale processing)。第二种是采用何恺明的空间金字塔池化(spatial pyramid pooling)[4]。ASSP如图4所示。对于输入特征图,采用不同rate的atrous卷积。

图 4

3.3 全连接条件随机场(fc-crf)

物体边界的精确定位问题,可由两种方法解决。第一种是使用卷积网络中的多层特征信息,比如FCN、U-Net、Hypercolunm等。第二种是使用超像素表征(super-pixel representation),参考zoom-out特征这一篇。本文提出新的方法,即结合全连接crf。其实,还有很多后处理方法可以考虑,数学形态学、活动轮廓模型等。

4 实验

暂略。

[1] DeepLab Semantic Image Segmentation with Deep Convolutional Nets Atrous Convolution and Fully Connected CRFs IEEE TPAMI 2018 [paper]
[2] Multi-scale Context Aggregation by Dilated Convolutions ICLR 2016 [paper]
[3] Understanding Convolution for Semantic Segmentation 2017 [paper]
[4] Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition ECCV 2014 [paper]

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值