卷积神经网络中卷积、反卷积、池化解析

最新推荐文章于 2025-04-02 19:47:39 发布

gqixl

最新推荐文章于 2025-04-02 19:47:39 发布

阅读量7.4k

点赞数 3

分类专栏：算法

本文链接：https://blog.csdn.net/gqixf/article/details/78549545

版权

算法专栏收录该内容

45 篇文章

订阅专栏

本文详细介绍了图像处理中的卷积与反卷积技术，包括卷积的不同类型（full、same、valid）及其计算公式，阐述了反卷积的概念与应用场景，并探讨了池化层的作用及多种池化方法。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

感谢博主：http://blog.csdn.net/fate_fjh/article/details/52882134

http://blog.csdn.net/u010402786/article/details/51541465

1.前言

传统的CNN网络只能给出图像的LABLE，但是在很多情况下需要对识别的物体进行分割实现end to end，然后FCN出现了，给物体分割提供了一个非常重要的解决思路，其核心就是卷积与反卷积，所以这里就详细解释卷积与反卷积。

对于1维的卷积，公式（离散）与计算过程（连续）如下，要记住的是其中一个函数（原函数或者卷积函数）在卷积前要翻转180度

图1

对于离散卷积，f的大小是n1，g的大小是n2，卷积后的大小是n1+n2-1

2.图像卷积

图2

同样地，卷积的时候需要对卷积核进行180的旋转，同时卷积核中心与需计算的图像像素对齐，输出结构为中心对齐像素的一个新的像素值，计算例子如下

图3

这样计算出左上角(即第一行第一列)像素的卷积后像素值。

给出一个更直观的例子，从左到右看，原像素经过卷积由1变成-8。

图4

通过滑动卷积核，就可以得到整张图片的卷积结果，

图5

到了这里，大致可以明白图像卷积。但是我们可以看出，通过图像卷积后，新图像的大小跟原来一样，或者变小。图2计算后图像大小不变，如图5卷积后图像变小是因为没有对所用像素进行卷积计算。但是1维的卷积结果不是变大了吗？下面对其解释。

在matlb中对2维卷积的计算分为了3类，1.full 2.same 3. valid 参考：https://cn.mathworks.com/help/matlab/ref/conv2.html?requestedDomain=www.mathworks.com

图2对应的卷积就是就是所谓的same，图5对应的就是valid。那么full又是什么呢？如下图

图6

图6中蓝色为原图像，白色为对应卷积所增加的padding，通常全部为0，绿色是卷积后图片。图6的卷积的滑动是从卷积核右下角与图片左上角重叠开始进行卷积，滑动步长为1，卷积核的中心元素对应卷积后图像的像素点。可以看到卷积后的图像是4X4，比原图2X2大了，我们还记1维卷积大小是n1+n2-1，这里原图是2X2，卷积核3X3，卷积后结果是4X4，与一维完全对应起来了。其实这才是完整的卷积计算，其他比它小的卷积结果都是省去了部分像素的卷积。下面是WIKI对应图像卷积后多出部分的解释：

Kernel convolution usually requires values from pixels outside of the image boundaries. There are a variety of methods for handling image edges.意思就是多出来的部分根据实际情况可以有不同的处理方法。（其实这里的full卷积就是后面要说的反卷积）

这里，我们可以总结出full，same，valid三种卷积后图像大小的计算公式：

1.full: 滑动步长为1，图片大小为N1xN1，卷积核大小为N2xN2，卷积后图像大小：N1+N2-1 x N1+N2-1

如图6，滑动步长为1，图片大小为2x2，卷积核大小为3x3，卷积后图像大小：4x4

2.same: 滑动步长为1，图片大小为N1xN1，卷积核大小为N2xN2，卷积后图像大小：N1xN1

3.valid:滑动步长为S，图片大小为N1xN1，卷积核大小为N2xN2，卷积后图像大小：(N1-N2)/S+1 x (N1-N2)/S+1

如图5，滑动步长为1，图片大小为5x5，卷积核大小为3x3，卷积后图像大小：3x3

3.反卷积（后卷积，转置卷积）

这里提到的反卷积跟1维信号处理的反卷积计算是很不一样的，FCN作者称为backwards convolution，有人称Deconvolution layer is a very unfortunate name and should rather be called a transposed convolutional layer. 我们可以知道，在CNN中有con layer与pool layer，con layer进行对图像卷积提取特征，pool layer对图像缩小一半筛选重要特征，对于经典的图像识别CNN网络，如IMAGENET，最后输出结果是1X1X1000，1000是类别种类，1x1得到的是。FCN作者，或者后来对end to end研究的人员，就是对最终1x1的结果使用反卷积（事实上FCN作者最后的输出不是1X1，是图片大小的32分之一，但不影响反卷积的使用）。

这里图像的反卷积与图6的full卷积原理是一样的，使用了这一种反卷积手段使得图像可以变大，FCN作者使用的方法是这里所说反卷积的一种变体，这样就可以获得相应的像素值，图像可以实现end to end。

图7

这里说另外一种反卷积做法，假设原图是3X3，首先使用上采样让图像变成7X7，可以看到图像多了很多空白的像素点。使用一个3X3的卷积核对图像进行滑动步长为1的valid卷积，得到一个5X5的图像，我们知道的是使用上采样扩大图片，使用反卷积填充图像内容，使得图像内容变得丰富，这也是CNN输出end to end结果的一种方法。韩国作者Hyeonwoo Noh使用VGG16层CNN网络后面加上对称的16层反卷积与上采样网络实现end to end 输出，其不同层上采样与反卷积变化效果如下，

图8

到这里就把图像卷积与反卷积解释完成，如有不妥，请学者们指证。

    补充一个资料：
    图6与图7出处，https://github.com/vdumoulin/conv_arithmetic

------------新增反卷积过程解释----------------
经过上面的解释与推导，对卷积有基本的了解，但是在图像上的deconvolution究竟是怎么一回事，可能还是不能够很好的理解，因此这里再对这个过程解释一下。
目前使用得最多的deconvolution有2种，上文都已经介绍。
方法1：full卷积，完整的卷积可以使得原来的定义域变大
方法2：记录pooling index，然后扩大空间，再用卷积填充

图像的deconvolution过程如下，

输入：2x2，卷积核：4x4，滑动步长：3，输出：7x7
即输入为2x2的图片经过4x4的卷积核进行步长为3的反卷积的过程
1.输入图片每个像素进行一次full卷积，根据full卷积大小计算可以知道每个像素的卷积后大小为 1+4-1=4，即4x4大小的特征图，输入有4个像素所以4个4x4的特征图
2.将4个特征图进行步长为3的fusion（即相加）；例如红色的特征图仍然是在原来输入位置（左上角），绿色还是在原来的位置（右上角），步长为3是指每隔3个像素进行fusion，重叠部分进行相加，即输出的第1行第4列是由红色特阵图的第一行第四列与绿色特征图的第一行第一列相加得到，其他如此类推。

可以看出翻卷积的大小是由卷积核大小与滑动步长决定， in是输入大小， k是卷积核大小， s是滑动步长， out是输出大小
得到 out = (in - 1) * s + k
上图过程就是， (2 - 1) * 3 + 4 = 7

4、池化

一池化的过程

　　卷积层是对图像的一个邻域进行卷积得到图像的邻域特征，亚采样层（池化层）就是使用pooling技术将小邻域内的特征点整合得到新的特征。
　　在完成卷积特征提取之后，对于每一个隐藏单元，它都提取到 (r-a+1)×(c-b+1)个特征，把它看做一个矩阵，并在这个矩阵上划分出几个不重合的区域，然后在每个区域上计算该区域内特征的均值或最大值，然后用这些均值或最大值参与后续的训练，这个过程就是池化。

二池化的优点

1 显著减少参数数量

　　通过卷积操作获得了图像的特征之后，若直接用该特征去做分类则面临计算量的挑战。而Pooling的结果可以使得特征减少，参数减少。
例如：对于一个 96X96 像素的图像，假设我们已经学习得到了400个定义在8X8输入上的特征，每一个特征和图像卷积都会得到一个 (96 − 8 + 1) * (96 − 8 + 1) = 7921 维的卷积特征，由于有 400 个特征，所以每个样本都会得到一个 892 * 400 = 3,168,400 维的卷积特征向量。学习一个拥有超过 3 百万特征输入的分类器十分不便，并且容易出现过拟合 (over-fitting)。

2 池化单元具有平移不变性

　　pooling可以保持某种不变性（旋转、平移、伸缩等）
　　

三池化的方式

1 一般池化（General Pooling）

1) mean-pooling，即对邻域内特征点只求平均，对背景保留更好；

2) max-pooling，即对邻域内特征点取最大，对纹理提取更好；

3) Stochastic-pooling，介于两者之间，通过对像素点按照数值大小赋予概率，再按照概率进行亚采样；

　　特征提取的误差主要来自两个方面：（1）邻域大小受限造成的估计值方差增大；（2）卷积层参数误差造成估计均值的偏移。一般来说，mean-pooling能减小第一种误差，更多的保留图像的背景信息，max-pooling能减小第二种误差，更多的保留纹理信息。在平均意义上，与mean-pooling近似，在局部意义上，则服从max-pooling的准则。

这里写图片描述

　　下面给出matlab中max-pooling的代码实现：
　　

function [outputMap, outputSize] =  max_pooling(inputMap, inputSize, poolSize, poolStride)
% ==========================================================
% INPUTS:
%        inputMap - input map of the max-pooling layer
%        inputSize - X-size(equivalent to Y-size) of input map
%        poolSize - X-size(equivalent to Y-size) of receptive field
%        poolStride -  the stride size between successive pooling squares.
% OUTPUT:
%        outputMap - output map of the max-pooling layer
%        outputSize - X-size(equivalently, Y-size) of output map
% ==========================================================
outputSize = inputSize/ poolStride;
inputChannel = size(inputMap, 3);

padMap = padarray(inputMap, [poolSize poolSize],0, 'post');
outputMap = zeros(outputSize, outputSize, inputChannel, 'single');

for j = 1:outputSize
    for i = 1:outputSize
        startX = 1 + (i-1)*poolStride;
        startY = 1 + (j-1)*poolStride;
        poolField = padMap(startY:startY+poolSize-1,startX:startX+poolSize-1,:);
        poolOut = max(reshape(poolField, [poolSize*poolSize,inputChannel]),[],1);
        outputMap(j,i,:) = reshape(poolOut,[1 1 inputChannel]);
    end
end