从FCN到DeepLab

最新推荐文章于 2023-10-20 00:14:32 发布

minione_2016

最新推荐文章于 2023-10-20 00:14:32 发布

阅读量609

点赞数

分类专栏： segmentation

本文链接：https://blog.csdn.net/minione_2016/article/details/80680110

版权

segmentation 专栏收录该内容

2 篇文章 0 订阅

订阅专栏

图像语义分割

图像语义分割，简单而言就是给定一张图片，对图片上的每一个像素点分类。
这里写图片描述

　图像语义分割，从FCN把深度学习引入这个任务到现在，一个通用的框架已经大概确定了。即前端使用FCN全卷积网络输出粗糙的label map，后端使用CRF条件随机场/MRF马尔科夫随机场等优化前端的输出，最后得到一个精细的分割图。
　这里写图片描述

FCN

为什么需要FCN？

分类网络通常会在最后连接几层全连接层，它会将原来二维的矩阵（图片）压扁成一维的，从而丢失了空间信息，最后训练输出一个标量，这就是我们的分类标签。
　　而图像语义分割的输出需要是个分割图，且不论尺寸大小，但是至少是二维的。所以，流行的做法是丢弃全连接层，换上全卷积层，而这就是全卷积网络了。具体定义请参看论文：《Fully Convolutional Networks for Semantic Segmentation》

FCN结构

在FＣＮ论文中，作者的FCN主要使用了三种技术：

convolutional
upsample
skip layer

convolutional即是将普通的分类网络，比如VGG16，ResNet50/101等网络丢弃全连接层，换上对应的卷积层即可。

upsample即是反卷积（Deconvolution）。当然关于这个名字不同框架不同，Caffe和Kera里叫Deconvolution，而tensorflow里叫conv_transpose，在信号与系统这门课上，我们学过反卷积有定义，不是这里的上采样。所以叫conv_transpose更为合适。

众所诸知，池化会缩小图片的尺寸，比如VGG16 五次池化后图片被缩小了32倍。为了得到和原图等大的分割图，我们需要上采样/反卷积。反卷积和卷积类似，都是相乘相加的运算。只不过后者是多对一，前者是一对多。而反卷积的前向和后向传播，只用颠倒卷积的前后向传播即可。所以无论优化还是后向传播算法都是没有问题。上池化的实现主要在于池化时记住输出值的位置，在上池化时再将这个值填回原来的位置，其他位置填0。图解如下：
这里写图片描述
skip layer的作用就在于优化结果，因为如果将全卷积之后的结果直接上采样得到的结果是很粗糙的，所以作者将不同池化层的结果进行上采样之后来优化输出。具体结构如下：

　不同上采样得到的结果对比如下：
　这里写图片描述
　当然，你也可以将pool1， pool2的输出再上采样输出。不过，作者说了这样得到的结果提升并不大。FCN是深度学习应用于图像语义分割的开山之作，所以得了CVPR2015的最佳论文。但是，还是有一些处理比较粗糙的地方，具体和后面对比就知道了。

FCN-alike

《SegNet: A Deep Convolutional Encoder-Decoder Architecture for Robust Semantic Pixel-Wise Labelling》则是一种结构上更为优雅的网络，SegNet使用一种概率自编码模型，这是一种无监督特征特征生成网络。当然，他们的label还是需要监督的。
这里写图片描述

DeepLab

DeepLab是Google搞出来的一个model，在VOC上的排名要比CRF as RNN的效果好。Deeplab仍然采用了FCN来得到score map，并且也是在VGG网络上进行fine-tuning。但是在得到score map的处理方式上，要比原FCN处理的优雅很多。
还记得FCN中是怎么得到一个更加dense的score map的吗？是一张500x500的输入图像，直接在第一个卷积层上conv1_1加了一个100的padding。最终在fc7层勉强得到一个16x16的score map。虽然处理上稍显粗糙，但是毕竟人家是第一次将图像分割在CNN上搞成end-to-end，并且在当时performance是state-of-the-art。
　　而怎样才能保证输出的尺寸不会太小而又不必加100 padding这样“粗糙的”做法呢？可能有人会说减少池化层不就行了，这样理论上是可以的，但是这样直接就改变了原先可用的结构了，而且最重要的一点是就不能用以前的结构参数进行fine-tune了。
所以，Deeplab这里使用了一个非常优雅的做法：将VGG网络的pool4和pool5层的stride由原来的2改为了1，再加上 1 padding。就是这样一个改动，使得vgg网络总的stride由原来的32变成8，进而使得在输入图像为514x514时，fc7能得到67x67的score map, 要比FCN确实要dense很多很多。
但是这种改变网络结果的做法也带来了一个问题： stride改变以后，如果想继续利用vgg model进行fine tuning，会导致后面感受野发生变化。这个问题在下图(a) (b)体现出来了，注意花括号就是感受野的大小：

参考链接

minione_2016

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
从FCN到DeepLab

图像语义分割图像语义分割，简单而言就是给定一张图片，对图片上的每一个像素点分类。　图像语义分割，从FCN把深度学习引入这个任务到现在，一个通用的框架已经大概确定了。即前端使用FCN全卷积网络输出粗糙的label map，后端使用CRF条件随机场/MRF马尔科夫随机场等优化前端的输出，最后得到一个精细的分割图。　FCN为什么需要FCN？分类网络通常会在最后连接几层全...
复制链接

扫一扫