【D】深度学习 CNN结构作用探讨

最新推荐文章于 2024-09-10 21:39:58 发布

skyHdd

最新推荐文章于 2024-09-10 21:39:58 发布

阅读量1.4k

点赞数 1

文章标签： CNN

本文链接：https://blog.csdn.net/u010591976/article/details/82561326

版权

平安的面试官问到CNN的池化层有什么作用？在图像处理和文本处理领域，卷积神经网络为什么会这么有效？我的回答池化层可以缩小尺寸加快训练速度，还可以减少过拟合的风险。CNN用于图像方面有优势主要是卷积层，池化层的存在，然后又扯了一些全局共享，瞎扯一通。明显不是很好的答案。面试官提到了一些局部和整体的概念，我明显不是很明白，下面基于大神的博客基础上解决了上面的问题。

在图像处理领域，卷积神经网络为什么会这么有效？

在解决在图像处理和文本处理领域，卷积神经网络为什么会这么有效？，这篇博客写的很全面卷积神经网络为什么能称霸计算机视觉领域？，在牛人的基础上，我简单总结一下：

卷积神经网络通过卷积和池化操作自动学习图像在各个层次上的特征，符合我们理解图像的常识。人在认知图像时是分层抽象的，首先理解的是颜色和亮度，然后是边缘、角点、直线等局部细节特征，接下来是纹理、几何形状等更复杂的信息和结构，最后形成整个物体的概念。
视觉神经科学（Visual Neuroscience）对于视觉机理的研究验证了这一结论，动物大脑的视觉皮层具有分层结构。眼睛将看到的景象成像在视网膜上，视网膜把光学信号转换成电信号，传递到大脑的视觉皮层（Visual cortex），视觉皮层是大脑中负责处理视觉信号的部分。目前已经证明，视觉皮层具有层次结构。从视网膜传来的信号首先到达初级视觉皮层，即V1皮层。V1皮层简单神经元对一些细节、特定方向的图像信号敏感。V1皮层处理之后，将信号传导到V2皮层。V2皮层将边缘和轮廓信息表示成简单形状，然后由V4皮层中的神经元进行处理，它颜色信息敏感。复杂物体最终在IT皮层被表示出来。
卷积神经网络可以看成是上面这种机制的简单模仿。它由多个卷积层构成，每个卷积层包含多个卷积核，用这些卷积核从左向右、从上往下依次扫描整个图像，得到称为特征图（feature map）的输出数据。网络前面的卷积层捕捉图像局部、细节信息，有小的感受野，即输出图像的每个像素只利用输入图像很小的一个范围。后面的卷积层感受野逐层加大，用于捕获图像更复杂，更抽象的信息。经过多个卷积层的运算，最后得到图像在各个不同尺度的抽象表示。

CNN最成功的应用是在CV，那为什么NLP和Speech的很多问题也可以用CNN解出来？为什么AlphaGo里也用了CNN？这几个不相关的问题的相似性在哪里？CNN通过什么手段抓住了这个共性？
以上几个不相关问题的相关性在于，都存在局部与整体的关系，由低层次的特征经过组合，组成高层次的特征，并且得到不同特征之间的空间相关性。低层次的直线／曲线等特征，组合成为不同的形状，最后得到汽车的表示。
CNN抓住此共性的手段主要有四个：局部连接／权值共享／池化操作／多层次结构。局部连接使网络可以提取数据的局部特征；权值共享大大降低了网络的训练难度，一个Filter只提取一个特征，在整个图片（或者语音／文本）中进行卷积；池化操作与多层次结构一起，实现了数据的降维，将低层次的局部特征组合成为较高层次的特征，从而对整个图片进行表示。

什么样的资料集不适合用深度学习?
数据集太小，数据样本不足时，深度学习相对其它机器学习算法，没有明显优势。
数据集没有局部相关特性，目前深度学习表现比较好的领域主要是图像／语音／自然语言处理等领域，这些领域的一个共性是局部相关性。图像中像素组成物体，语音信号中音位组合成单词，文本数据中单词组合成句子，这些特征元素的组合一旦被打乱，表示的含义同时也被改变。对于没有这样的局部相关性的数据集，不适于使用深度学习算法进行处理。举个例子：预测一个人的健康状况，相关的参数会有年龄、职业、收入、家庭状况等各种元素，将这些元素打乱，并不会影响相关的结果。

卷积操作

一维信号的卷积是数字信号处理里的一种经典手段，在图像处理领域，卷积也是一种常用的运算。它被用于图像去噪、增强、边缘检测等问题，还可以提取图像的特征。卷积运算用一个称为卷积核的矩阵自上而下、自左向右在图像上滑动，将卷积核矩阵的各个元素与它在图像上覆盖的对应位置的元素相乘，然后求和，得到输出像素值。

CNN的应用

机器视觉是深度学习技术最先取得突破的领域，也是应用最广泛的领域。在AlexNet出现之后，卷积神经网络很快被用于机器视觉里的各种任务，包括通用目标检测、行人检测、人脸检测、人脸识别、图像语义分割、边缘检测、目标跟踪、视频分类等各种问题，都取得了成功。
自然语言处理领域大多数的问题都是时间序列问题，这是循环神经网络擅长处理的问题。但对于有些问题，使用卷积网络也能进行建模并且得到了很好的结果，典型的是文本分类和机器翻译。除此之外，卷积神经网络在语音识别、计算机图形学等其他方向也有应用。

pooling层的作用

维数高不仅计算耗时，而且容易导致过拟合。为此引入了下采样技术，也称为pooling即池化操作。在卷积神经网络中，池化层往往在卷积层后面，通过池化来降低卷积层输出的特征向量，同时改善结果（不易出现过拟合）。
至于pooling为什么可以这样做，是因为：我们之所以决定使用卷积后的特征是因为图像具有一种“静态性”的属性，这也就意味着在一个图像区域有用的特征极有可能在另一个区域同样适用。因此，为了描述大的图像，一个很自然的想法就是对不同位置的特征进行聚合统计。这个均值或者最大值就是一种聚合统计的方法。
另外，如果人们选择图像中的连续范围作为池化区域，并且只是池化相同(重复)的隐藏单元产生的特征，那么，这些池化单元就具有平移不变性(translation invariant)。这就意味着即使图像经历了一个小的平移之后，依然会产生相同的（池化的）特征。在很多任务中（例如物体检测、声音识别），我们都更希望得到具有平移不变性的特征，因为即使图像经过了平移，样例（图像）的标记仍然保持不变。例如，如果你处理一个MNIST数据集的数字，把它向左侧或右侧平移，那么不论最终的位置在哪里，你都会期望你的分类器仍然能够精确地将其分类为相同的数字。

1. 一般池化（General Pooling）
池化作用于图像中不重合的区域（这与卷积操作不同）
定义池化窗口的大小为sizeX，即下图中红色正方形的边长，定义两个相邻池化窗口的水平位移/竖直位移为stride。一般池化由于每一池化窗口都是不重复的，所以sizeX=stride。
最常见的池化操作为平均池化mean pooling和最大池化max pooling：

平均池化：计算图像区域的平均值作为该区域池化后的值。
最大池化：选图像区域的最大值作为该区域池化后的值

2.金字塔最大池化 *SPP-Net*
看到这篇博客基于空间金字塔池化的卷积神经网络物体检测：
在现有的CNN中，对于结构已经确定的网络，需要输入一张固定大小的图片，比如224*224，32*32,96*96等。这样对于我们希望检测各种大小的图片的时候，需要经过裁剪，或者缩放等一系列操作，这样往往会降低识别检测的精度，于是paper提出了“空间金字塔池化”方法，空间金字塔池化，又称之为“SPP-Net”，这个算法的牛逼之处，在于使得我们构建的网络，可以输入任意大小的图片，不需要经过裁剪缩放等操作，只要你喜欢，任意大小的图片都可以。不仅如此，这个算法用了以后，精度也会有所提高。

原理流程：
空间金字塔特征提取方法，跟Sift、Hog等特征息息相关。为了简单起见，我们假设一个很简单两层网络：
输入层：一张任意大小的图片,假设其大小为(w,h)。
输出层：21个神经元。
这里写图片描述
如上图所示，当我们输入一张图片的时候，我们利用不同大小的刻度，对一张图片进行了划分。上面示意图中，利用了三种不同大小的刻度，对一张输入的图片进行了划分，最后总共可以得到16+4+1=21个块，我们即将从这21个块中，每个块提取出一个特征，这样刚好就是我们要提取的21维特征向量。

第一张图片,我们把一张完整的图片，分成了16个块，也就是每个块的大小就是(w/4,h/4);
第二张图片，划分了4个块，每个块的大小就是(w/2,h/2);
第三张图片，把一整张图片作为了一个块，也就是块的大小为(w,h)

空间金字塔最大池化的过程，其实就是从这21个图片块中，分别计算每个块的最大值，从而得到一个输出神经元。最后把一张任意大小的图片转换成了一个固定大小的21维特征（当然你可以设计其它维数的输出，增加金字塔的层数，或者改变划分网格的大小）。上面的三种不同刻度的划分，每一种刻度我们称之为：金字塔的一层，每一个图片块大小我们称之为：windows size了。如果你希望，金字塔的某一层输出n*n个特征，那么你就要用windows size大小为：(w/n,h/n)进行池化了

当我们有很多层网络的时候，当网络输入的是一张任意大小的图片，这个时候我们可以一直进行卷积、池化，直到网络的倒数几层的时候，也就是我们即将与全连接层连接的时候，就要使用金字塔池化，使得任意大小的特征图都能够转换成固定大小的特征向量，这就是空间金字塔池化的奥义（多尺度特征提取出固定大小的特征向量）。具体的流程图如下：
这里写图片描述