对FCN及反卷积的理解

最新推荐文章于 2024-03-22 20:07:05 发布

tuuzhang

最新推荐文章于 2024-03-22 20:07:05 发布

阅读量3.8k

点赞数 3

分类专栏：语义分割

语义分割专栏收录该内容

5 篇文章 0 订阅

订阅专栏

原文链接：对FCN及反卷积的理解

----主要参考

https://github.com/vdumoulin/conv_arithmetic

https://www.zhihu.com/question/43609045

http://blog.csdn.net/fate_fjh/article/details/52882134

先介绍一波反卷积

1.前言

传统的CNN网络只能给出图像的LABLE，但是在很多情况下需要对识别的物体进行分割实现end to end，然后FCN出现了，给物体分割提供了一个非常重要的解决思路，其核心就是卷积与反卷积，所以这里就详细解释卷积与反卷积。

对于1维的卷积，公式（离散）与计算过程（连续）如下，要记住的是其中一个函数（原函数或者卷积函数）在卷积前要翻转180度

图1

对于离散卷积，f的大小是n1，g的大小是n2，卷积后的大小是n1+n2-1

2.图像卷积

图2

同样地，卷积的时候需要对卷积核进行180的旋转，同时卷积核中心与需计算的图像像素对齐，输出结构为中心对齐像素的一个新的像素值，计算例子如下

图3

这样计算出左上角(即第一行第一列)像素的卷积后像素值。

给出一个更直观的例子，从左到右看，原像素经过卷积由1变成-8。

图4

通过滑动卷积核，就可以得到整张图片的卷积结果，

图5

到了这里，大致可以明白图像卷积。但是我们可以看出，通过图像卷积后，新图像的大小跟原来一样，或者变小。图2计算后图像大小不变，如图5卷积后图像变小是因为没有对所用像素进行卷积计算。但是1维的卷积结果不是变大了吗？下面对其解释。

在matlb中对2维卷积的计算分为了3类，1.full 2.same 3. valid 参考：https://cn.mathworks.com/help/matlab/ref/conv2.html?requestedDomain=www.mathworks.com

图2对应的卷积就是就是所谓的same，图5对应的就是valid。那么full又是什么呢？如下图

图6

图6中蓝色为原图像，白色为对应卷积所增加的padding，通常全部为0，绿色是卷积后图片。图6的卷积的滑动是从卷积核右下角与图片左上角重叠开始进行卷积，滑动步长为1，卷积核的中心元素对应卷积后图像的像素点。可以看到卷积后的图像是4X4，比原图2X2大了，我们还记1维卷积大小是n1+n2-1，这里原图是2X2，卷积核3X3，卷积后结果是4X4，与一维完全对应起来了。其实这才是完整的卷积计算，其他比它小的卷积结果都是省去了部分像素的卷积。下面是WIKI对应图像卷积后多出部分的解释：

Kernel convolution usually requires values from pixels outside of the image boundaries. There are a variety of methods for handling image edges.意思就是多出来的部分根据实际情况可以有不同的处理方法。（其实这里的full卷积就是后面要说的反卷积）

这里，我们可以总结出full，same，valid三种卷积后图像大小的计算公式：

1.full: 滑动步长为1，图片大小为N1xN1，卷积核大小为N2xN2，卷积后图像大小：N1+N2-1 x N1+N2-1

如图6，滑动步长为1，图片大小为2x2，卷积核大小为3x3，卷积后图像大小：4x4

2.same: 滑动步长为1，图片大小为N1xN1，卷积核大小为N2xN2，卷积后图像大小：N1xN1

3.valid:滑动步长为S，图片大小为N1xN1，卷积核大小为N2xN2，卷积后图像大小：(N1-N2)/S+1 x (N1-N2)/S+1

如图5，滑动步长为1，图片大小为5x5，卷积核大小为3x3，卷积后图像大小：3x3

3.反卷积（后卷积，转置卷积）

这里提到的反卷积跟1维信号处理的反卷积计算是很不一样的，FCN作者称为backwards convolution，有人称Deconvolution layer is a very unfortunate name and should rather be called a transposed convolutional layer. 我们可以知道，在CNN中有con layer与pool layer，con layer进行对图像卷积提取特征，pool layer对图像缩小一半筛选重要特征，对于经典的图像识别CNN网络，如IMAGENET，最后输出结果是1X1X1000，1000是类别种类，1x1得到的是。FCN作者，或者后来对end to end研究的人员，就是对最终1x1的结果使用反卷积（事实上FCN作者最后的输出不是1X1，是图片大小的32分之一，但不影响反卷积的使用）。

这里图像的反卷积与图6的full卷积原理是一样的，使用了这一种反卷积手段使得图像可以变大，FCN作者使用的方法是这里所说反卷积的一种变体，这样就可以获得相应的像素值，图像可以实现end to end。

图7

这里说另外一种反卷积做法，假设原图是3X3，首先使用上采样让图像变成7X7，可以看到图像多了很多空白的像素点。使用一个3X3的卷积核对图像进行滑动步长为1的valid卷积，得到一个5X5的图像，我们知道的是使用上采样扩大图片，使用反卷积填充图像内容，使得图像内容变得丰富，这也是CNN输出end to end结果的一种方法。韩国作者Hyeonwoo Noh使用VGG16层CNN网络后面加上对称的16层反卷积与上采样网络实现end to end 输出，其不同层上采样与反卷积变化效果如下，

图8

到这里就把图像卷积与反卷积解释完成，如有不妥，请学者们指证。

补充一个资料：
图6与图7出处，https://github.com/vdumoulin/conv_arithmetic
经过上面的解释与推导，对卷积有基本的了解，但是在图像上的deconvolution究竟是怎么一回事，可能还是不能够很好的理解，因此这里再对这个过程解释一下。
目前使用得最多的deconvolution有2种，上文都已经介绍。
方法1：full卷积，完整的卷积可以使得原来的定义域变大
方法2：记录pooling index，然后扩大空间，再用卷积填充

图像的deconvolution过程如下，

输入：2x2，卷积核：4x4，滑动步长：3，输出：7x7
即输入为2x2的图片经过4x4的卷积核进行步长为3的反卷积的过程
1.输入图片每个像素进行一次full卷积，根据full卷积大小计算可以知道每个像素的卷积后大小为 1+4-1=4，即4x4大小的特征图，输入有4个像素所以4个4x4的特征图
2.将4个特征图进行步长为3的fusion（即相加）；例如红色的特征图仍然是在原来输入位置（左上角），绿色还是在原来的位置（右上角），步长为3是指每隔3个像素进行fusion，重叠部分进行相加，即输出的第1行第4列是由红色特阵图的第一行第四列与绿色特征图的第一行第一列相加得到，其他如此类推。

可以看出翻卷积的大小是由卷积核大小与滑动步长决定， in是输入大小， k是卷积核大小， s是滑动步长， out是输出大小
得到 out = (in - 1) * s + k
上图过程就是， (2 - 1) * 3 + 4 = 7

这里的步长也可以这样理解当stride =1 时，如下的左图，当stride=2时，如下的右图

---------------------------------------------------------------------------------------------------------------

参考FCN论文：Fully Convolutional Networks for Semantic Segmentation
FCN作为图像语义分割的先河，实现像素级别的分类（即end to end，pixel-wise），为后续使用CNN作为基础的图像语义分割模型提供重要基础。作者在阅读FCN论文时，遇到不少困难，同时FCN没有多少中文资料（更多是英语翻译），所以作者尽量用浅白的方式讲述FCN的原理与过程。

FCN中的CNN

首先回顾CNN测试图片类别的过程，如下图
CNN过程
主要由卷积，pool与全连接构成，这里把卷积与pool都看作图中绿色的convolution，全连接为图中蓝色的fully connected。卷积主要是获取高维特征，pool使图片缩小一半，全连接与传统神经网络相似作为权值训练，最后通过softmax输出概率最高的类别。上图中nxn表示feature map（特征图）大小，如原图大小为227x227,经过卷积与pool后得到55x55的特征图（一层的特征图可以有多个类别）。注意，不同的卷积操作可能会对图片大小产生影响，而pool永远使图片缩小1/2。–可以参考作者的卷积神经网络CNN（1）。经过多次卷积后特征图大小为13x13,特征图的权值展开为1维与后面的权值实现全连接，最后使用softmax输出类别。这就是CNN的大致网络结构与分类过程。

经过CNN改造的FCN如下图，
这里写图片描述
看可以看到蓝色的全连接层全部换成卷积层，对于CNN的过程就是做了这么简单直白的变换，全卷积的名字由此而来，这就是FCN。图中nxn是表示特征图的大小，可以看到最后特征图的大小为原图的1/32（这与FCN论文中解释upsample实现end to end 的32stride，16stride，8stride有莫大的关系）。

FCN的upsample

upsample意思为上采样，简单来说就是pooling的逆过程，所以pooling也就是下采样，采样后数据数量减少，upsample采样后数据数量增多。FCN作者在论文中讨论了3种upsample方法，最后选用的是反卷积的方法（FCN作者称其为后卷积）使图像实现end to end，可以理解upsample就是使大小比原图像小得多的特征图变大，使其大小为原图像大小。
这里写图片描述
下面解释FCN中是如何实现upsample，FCN作者分为FCN-32s,FCN-16s,FCN-8s三种，论文中有一个图是描述这个三个过程的，如下图，

image是原图像，conv1,conv2..,conv5为卷积操作，pool1,pool2,..pool5为pool操作（pool就是使得图片变为原图的1/2），注意con6-7是最后的卷积层，最右边一列是upsample后的end to end结果。必须说明的是图中nx是指对应的特征图上采样n倍（即变大n倍），并不是指有n个特征图，如32x upsampled 中的32x是图像只变大32倍，不是有32个上采样图像，又如2x conv7是指conv7的特征图变大2倍。

第一行对应FCN-32s，第二行对应FCN-16s，第三行对应FCN-8s。
先从FCN-32s开始说明upsample过程，只需要留意第一行，网络里面有5个pool，所以conv7的特征图是原始图像1/32，可以发现最左边image的是32x32，同时我们知道在FCN中的卷积是不会改变图像大小（或者只有少量像素的减少，特征图大小基本不会小很多），看到pool1是16x16，pool2是8x8，pool3是4x4，pool4是2x2，pool5是1x1，所以conv7对应特征图大小为1x1，然后再经过32x upsampled prediction 图片变回32x32。FCN作者在这里增加一个卷积层，卷积后的大小为输入图像的32(2^5)倍，我们简单假设这个卷积核大小也为32，这样就是需要通过反馈训练32x32个权重变量即可让图像实现end to end，完成了一个32s的upsample，FCN作者称做后卷积，他也提及可以称为反卷积。事实上在源码中卷积核的大小为64，同时没有偏置bias。还有一点就是FCN论文中最后结果都是21x…，这里的21是指FCN使用的数据集分类，总共有21类。
现在我们把1,2两行一起看，忽略32x upsampled prediction，说明FCN-16s的upsample过程，，FCN作者在conv7先进行一个2x conv7操作，其实这里也只是增加1个卷积层，这次卷积后特征图的大小为conv7的2倍，可以从pool5与2x conv7中看出来，此时2x conv7与pool4的大小是一样的，FCN作者提出对pool4与2x conv7进行一个fuse操作（事实上就是将pool4与2x conv7相加），fuse结果进行16x upsampled prediction，与FCN-32s一样，也是增加一个卷积层，卷积后的大小为输入图像的16(2^4)倍，我们知道pool4的大小是2x2，放大16倍，就是32x32，这样最后图像大小也变为原来的大小，至此完成了一个16s的upsample。现在我们可以知道，FCN中的upsample实际是通过增加卷积层，通过bp反馈的训练方法训练卷积层达到end to end，这时卷积层的作用可以看作是pool的逆过程。
这是我们看第1行与第3行，忽略32x upsampled prediction，conv7经过一次4x upsample，即使用一个卷积层，特征图输出大小为conv7的4倍，所以4x conv7的大小为4x4，然后pool4需要一次2x upsample，变成2x pool4，大小也为4x4，最后吧4x conv7，2x pool4与pool3进行fuse，得到求和后的特征图，最后增加一个卷积层，使得输出图片大小为pool3的8倍，也就是8x upsampled prediction的过程，最后也得到一个end to end的图像。同时FCN-8s均优于FCN-16s，FCN-32s。
我们可以发现，如果继续仿照FCN作者的步骤，我们可以对pool2，pool1实现同样的方法，可以有FCN-4s，FCN-2s，最后得到end to end的输出。这里作者给出了明确的结论，超过FCN-8s之后，结果并不能继续优化。

Fina l l y

结合上述的FCN的全卷积与upsample，在upsample最后加上softmax，就可以对不同类别的大小概率进行估计，实现end to end，最后输出的图是一个概率估计，对应像素点的值越大，其像素为该类的结果也越大。FCN的核心贡献在于提出使用卷积层通过学习让图片实现end to end分类。事实上，FCN有一些短处，例如使用了较浅层的特征，因为fuse操作会加上较上层的pool特征值，导致高维特征不能很好得以使用，同时也因为使用较上层的pool特征值，导致FCN对图像大小变化有所要求，如果测试集的图像远大于或小于训练集的图像，FCN的效果就会变差。但是，也由于FCN提出了一种新的语义分割的方法，才使得有后面韩国Hyeonwoo Noh的对称反卷积网络，剑桥的SegNet等优秀用于语义分割的CNN网络。