语义分割算法——应用空洞卷积和CRF的DeepLabv1

最新推荐文章于 2024-07-19 19:11:19 发布

古-月

最新推荐文章于 2024-07-19 19:11:19 发布

阅读量683

点赞数 7

文章标签：算法

本文链接：https://blog.csdn.net/hcx25909/article/details/140548415

版权

描述

原文：Semantic Image Segmentation with Deep Convolutional Nets and Fully Connected CRFs

系列文章的第一篇，发表在2014年CVPR。

在语义分割中，通常会使用分类网络作为backbone。通过backbone之后会对特征图进行一系列的下采样，之后再进行一系列的上采样还原原图的大小

Abstract

深度卷积神经网络(deep Convolutional Neural Networks, DCNN)最近在高级视觉任务(如图像分类和目标检测)方面表现出了最先进的性能。

本篇文章结合了 DCNN 和概率图形模型的方法，来解决像素级分类任务（也称为“语义图像分割”）。作者认为，DCNN最后一层的响应无法在位置上进行准确的对象分割。这是因为使 DCNN 的非常不变性属性是适用于更高级任务的。作者通过将最终 DCNN 层的响应与完全连接的条件随机场 (CRF) 相结合，来克服深度网络的这种定位很差的缺点。

提出的“DeepLab”系统能够以超出先前方法的准确度，来进行语义分割。在数量上，在 PASCAL VOC-2012 语义图像分割任务测试集中达到了 71.6% 的 IOU 准确率。在GPU 上可以达到每秒 8 帧。

1.INTRODUCTION

DCNN在图像分类、目标检测等任务上，比人为设计特征（SIFT或HOG）等有着更优秀的表现。原因是，DCNN对局部图像发生变换有很好的适应性，支持了网络可以学到更高级的特征。但是对于低级视觉任务，如姿态识别、语义分割等，需要更精确的定位，而不是对空间信息的抽象表征。

标准DCNN的结构，对于执行语义分割任务，有两个设计缺陷：

1.不断的最大池化和下采样，导致分辨率不断下降，位置信息丢失。

参考DCNN的网络结构，特征层尺寸越来越小，深度越来越深。

2.DCNN为获得以对象为中心的决策，需要有针对空间变换的不变性，限制了模型的空间精度。

针对分类任务的DCNN，具备空间不变性。图像中狗的位置随机，网络分类结果不变。但分割等任务，是不具备空间不变性的。狗在图像上变化位置，分割的结果就应该不一样

DeepLabV1的提出有三个优点：1.速度快：即使CRF很耗时，但采用了空洞卷积。2.准确：比当时最好的方法准确率提升了7.2%。3.简单：主要由DCNNs和CRFs构成。

依旧跳过

3.CONVOLUTIONAL NEURAL NETWORKS FOR DENSE IMAGE LABELING

作者采用了开源的VGG16作为特征提取器

3.1 空洞卷积（the hole algorithm）

DeepLabv1使用了空洞卷积的思想，文中称为’hole algorithm’ (‘atrous algorithm’)，也就是后来的空洞卷积 。作者在文中针对空洞卷积的图示也并不清晰，可以去看后人专门发表的空洞卷积论文：MULTI -SCALE CONTEXT AGGREGATION BY DILATED CONVOLUTIONS。这里我们简单按照Deeplabv1的思路来学习。

“Dense spatial score evaluation is instrumental in the success of our dense CNN feature extractor.” 第一句话怎么理解呢？

我们都知道VGG16的网络结构，最后有着3个全连接层。由于我们的任务是语义分割，需要得到“更密集”（或者说是更多）的代表位置的特征信息，如果网络能够让VGG16网络输出的特征图更大，对语义分割是更好的。VGG16在全连接层前得到的结果是7×7×512的，输入像素为224×224，意味着该层的感受野是32×32的。作者说了，为了更密集的检测结果（期望是感受野为8×8），需要对VGG16网络做出调整。

1.将VGG16最后的三个全连接层，替换为卷积层。

2.VGG16网络结构最后的两个maxpooling层，步长从2改为1，也就是不进行下采样了。

3.VGG16最后的三个卷积层用空洞率为2的空洞卷积，第一个全连接层改成空洞率为4的空洞卷积。

4.VGG16最后softmax后有1000个分类结果，DeepLabv1替换为了21路分类结果。

5.DeepLabv1最后的特征图大小为28×28×1024，经过softmax得到28×28×21。损失函数设置为，ground truth进行尺寸为8的下采样（因为感受野范围为8），每个位置的预测值与真值的交叉熵，再对交叉熵求和得到损失函数。ground truth下采样时，所有位置和标签的权重是相同的。

最后作者说，特征层28×28×21的结果如图2所示，非常平滑。所以可以用简单的双线性插值，上采样回原图大小。

3.2 控制感受野大小和加速密度计算

控制网络的感受野大小，是DeepLabv1另外一个重要的点。

作者认为，DCNN一般有非常大的感受野，而且其中的全连接层计算量很大，限制了它成为语义分割的可能性。

而上一节作者所提出的修改，降低了感受野的大小，306×306像素大小的输入图片，在最后可以得到39×39大小的更“密”的特征图。同时减少了计算量，使得计算加快了。

4. 详细的边界恢复:完全约束条件条件随机场和多尺度预测（CRF条件随机场）

点击语义分割算法——应用空洞卷积和CRF的DeepLabv1——古月居可查看全文

古-月

关注

7
点赞
踩
20

收藏

觉得还不错? 一键收藏
0
评论
语义分割算法——应用空洞卷积和CRF的DeepLabv1

深度卷积神经网络(deep Convolutional Neural Networks, DCNN)最近在高级视觉任务(如图像分类和目标检测)方面表现出了最先进的性能。本篇文章结合了 DCNN 和概率图形模型的方法，来解决像素级分类任务（也称为“语义图像分割”）。作者认为，DCNN最后一层的响应无法在位置上进行准确的对象分割。这是因为使 DCNN 的非常不变性属性是适用于更高级任务的。作者通过将最终 DCNN 层的响应与完全连接的条件随机场 (CRF) 相结合，来克服深度网络的这种定位很差的缺点。
复制链接

扫一扫