DeepLab: Semantic Image Segmentation withDeep Convolutional Nets, Atrous Convolution论文阅读

最新推荐文章于 2023-07-13 22:20:39 发布

AI自修室

最新推荐文章于 2023-07-13 22:20:39 发布

阅读量595

点赞数

分类专栏：深度学习论文阅读记录文章标签：图像处理 python

本文链接：https://blog.csdn.net/weixin_42367888/article/details/121431077

版权

深度学习论文阅读记录专栏收录该内容

7 篇文章 0 订阅

订阅专栏

DeepLab: Semantic Image Segmentation withDeep Convolutional Nets, Atrous Convolution,and Fully Connected CRFs DeepLab：使用深度卷积网络、Atrous卷积和全连接CRF进行语义图像分割

1 摘要

本文提出了一种用于语义分割的DeepLab系统，主要有三大贡献：
①使用“空洞卷积”代替传统的普通卷积；
② 提出空洞空间金字塔池化（ASPP）有效地解决图像多尺度问题
③使用条件随机场（CRF）对特征图进行后处理，解决了图像边界定位，分割不准确的问题。
DeepLab系统结合DCNN在PASCAL VOC-2012语义分割任务中达到当时最好的效果，在其它的三个数据集：PASCAL-Context，PASCAL-Person-Part，Cityspaces也有很好的表现。

2 亮点

2.1 空洞卷积
在DCNN中，由于需要提高卷积核的感受野以便在每次滑动窗口卷积的时候得到更加丰富的图像语义信息以及语义联系，通常需要对图像进行反复池化和卷积得到一个较小特征图。但是在进行池化的过程中，一些图像的细节信息可能会被池化掉，但是为了提高卷积的感受野同时减少参数，又必须进行池化操作；为了弥补池化带来的信息的丢失，在FCN、U-Net等网络中通过把池化前的特征图与上采样以后得到的特征图进行融合以恢复一些丢失的信息。本文作者想到一个两全其美的办法。
使用一个叫空洞卷积的东西去代替普通卷积，能够以同样的参数获得更大感受野，每次滑动窗口能整合更多的图像语义信息或者说上下文信息。
在这里插入图片描述
可见上图中下面移动的为卷积核带有3x3的填充数字，但卷积核不是全填充的，而是间隔填充，那么相对于一个3x3的全填充，间隔填充就能获得更佳大的感受野，同时进行卷积后特征图变小了，也就不需要池化层了，也就是说同样的参数，使用空洞卷积能够获得更大的感受野。

2.2 空洞空间金字塔池化（ASPP）

多尺度问题也是语义分割中一个重要的问题，多尺度问题可以理解为在一张图片中近处有一个人和远处一辆车，直接通过CNN提取特征获得的是全局特征，而单纯地截取车辆部分放大至与原图相同的尺寸并且在其基础上提取特征，这就是一个局部特征。多尺度就是在保证全局特征的基础上要保证局部特征的不丢失，特征图上既有全局特征又有局部特征。本文提出ASPP来解决多尺度问题。其基本思路是：针对一张图片，同时使用多个不同空洞率的空洞卷积核，将得到的所有结果进行融合。
在这里插入图片描述
输入的特征图，分别采用空洞率为：6，12，18，24的空洞卷积核，而空洞率越大就越能体现全局特征，空洞率越小就能够保证局部的细节特征，最终进行融合能够同时获得全局特征和局部特征。

2.3 条件随机场（CRF）

将条件随机场应用于图像分割,则我们将一张图片用无向图表示,每个像素点为无向图中的顶点,像素间的连接关系为顶点的连线。图像分割的过程,就是将每个顶点赋予不同的标签(目标或背景),即,将无向图中的边在边界处正确地切分开。
使用CRF进行图像的后处理能够使得图像的边界更加明显，其效果如下图。
在这里插入图片描述
直接经过DCNN输出的特征图跟分割的label效果相比还是有一定的区别的，但是经过CRF进行后处理以后跟label更加接近。

2.4 实现过程

DeepLab在DCNN中完整的实现过程如下图：
在这里插入图片描述
输入图像经过带空洞卷积的DCNN得到一个缩小的特征图，然后经过一个双线性插值法的上采样恢复图像尺寸大小，最后经过CRF进行图像后处理输出结果。

3 部分效果

3.1 分割的数据对比

上图不同结构在PASCAL VOC 2012测试集的平均交并比的表现，可以看到ResNet-101结构+DeepLab-CRF系统得到最好的效果。
在这里插入图片描述

3.1 分割的效果对比

上图为在PASCAL-Person-Part数据集中使用CRF前后的效果对比图。
在这里插入图片描述

4 结论

DeepLab-CRF与FCN一样，是一种方法技巧，可以应用于VGG16、ResNet-101等结构。有以下优势和不足。

4.1 优势
① 使用了空洞卷积，解决了特征图在池化过程中变得稀疏问题。
② 考虑到多尺度问题，通过使用使用ASPP，避免了网络面对各种尺度目标的不敏感性；
③ 由于DCNN的不变性存在特征图的定位精度问题，使用CRF能够很好解决这个问题。

4.2 不足
① 使用CRF进行后处理，计算量较为复杂。

AI自修室

关注

0
点赞
踩
4

收藏

觉得还不错? 一键收藏
打赏
0
评论
DeepLab: Semantic Image Segmentation withDeep Convolutional Nets, Atrous Convolution论文阅读

DeepLab: Semantic Image Segmentation withDeep Convolutional Nets, Atrous Convolution,and Fully Connected CRFs DeepLab：使用深度卷积网络、Atrous卷积和全连接CRF进行语义图像分割1 摘要本文提出了一种用于语义分割的DeepLab系统，主要有三大贡献：①使用“空洞卷积”代替传统的普通卷积；② 提出空洞空间金字塔池化（ASPP）有效地解决图像多尺度问题③使用条件随机场（CRF）对特
复制链接

扫一扫