「Computer Vision」Note on DeepLab V2

最新推荐文章于 2024-03-28 10:34:32 发布

小锋子Shawn

最新推荐文章于 2024-03-28 10:34:32 发布

阅读量993

点赞数

文章标签：小锋子深度学习语义图像分割 deeplab

本文链接：https://blog.csdn.net/dgyuanshaofeng/article/details/80086542

版权

QQ Group: 428014259
Sina Weibo：小锋子Shawn
Tencent E-mail：403568338@qq.com
http://blog.csdn.net/dgyuanshaofeng/article/details/80086542

0 摘要

1 介绍

2 相关方法

3 方法

在图1中，DCNN或者backbone采用VGG-16或者ResNet-101。DeepLab V2系统由两部分组成，一个是分割网络，另一个是CRF概率图模型，即我们在分割系统中常见的区域分割和边界优化两步。

图 1

3.1 atrous卷积（dilated 卷积[2]）

其作用如文中所述，有两个：第一是密集特征提取（dense feature extraction），第二是扩大感受野/FOV（field of view enlargement）。其基本原理描述就是，convolution with upsampled filters。atrous卷积的目的是缓解池化和大步长卷积造成的空间分辨率损失，减轻这一问题的另一种方案是采样反卷积层（deconvolutional layers），但是这需要额外的内存和计算时间。
atrous卷积应用在1维输入时，如图2所示（一直没看懂为什么是sparse和dense）。

图 2

atrous卷积应用在2维输入时，如图3所示。在二维情况下，就比较好懂，原来将图像进行了下采样就是sparse，不进行下采样就是dense了。我们从特征图中看到，atrous卷积没有带有影响较大的孔洞。其实，图森有个论文[3]就提到如何消除孔洞效应。

图 3

3.2 atrous空间金字塔池化（ASSP）

论文尝试了两种方法来处理尺度变异性（scale variability）。第一种是标准的多尺度处理（multiscale processing）。第二种是采用何恺明的空间金字塔池化（spatial pyramid pooling）[4]。ASSP如图4所示。对于输入特征图，采用不同rate的atrous卷积。

图 4

3.3 全连接条件随机场（fc-crf）

物体边界的精确定位问题，可由两种方法解决。第一种是使用卷积网络中的多层特征信息，比如FCN、U-Net、Hypercolunm等。第二种是使用超像素表征（super-pixel representation），参考zoom-out特征这一篇。本文提出新的方法，即结合全连接crf。其实，还有很多后处理方法可以考虑，数学形态学、活动轮廓模型等。

4 实验

暂略。

[1] DeepLab Semantic Image Segmentation with Deep Convolutional Nets Atrous Convolution and Fully Connected CRFs IEEE TPAMI 2018 [paper]
[2] Multi-scale Context Aggregation by Dilated Convolutions ICLR 2016 [paper]
[3] Understanding Convolution for Semantic Segmentation 2017 [paper]
[4] Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition ECCV 2014 [paper]

小锋子Shawn

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
「Computer Vision」Note on DeepLab V2

Sina Weibo：小锋子Shawn Tencent E-mail：403568338@qq.com http://blog.csdn.net/dgyuanshaofeng/article/details/80086542方法在图1中，DCNN或者backbone采用VGG-16或者ResNet-101。DeepLab V2系统由两部分组成，一个是分割网络，另一个是CRF概率...
复制链接

扫一扫