CNN的理解

最新推荐文章于 2020-10-02 11:00:00 发布

Piggytuotuo

最新推荐文章于 2020-10-02 11:00:00 发布

阅读量497

点赞数

本文转自：点击打开链接

一，前言

卷积神经网络（Constitutional Neural Networks, CNN）是在多层神经网络的基础上发展起来的针对图像分类和识别而特别设计的一种深度学习方法。先回顾一下多层神经网络:
这里写图片描述
多层神经网络包括一个输入层和一个输出层，中间有多个隐藏层。每一层有若干个神经元，相邻的两层之间的后一层的每一个神经元都分别与前一层的每一个神经元连接。在一般的识别问题中，输入层代表特征向量，输入层的每一个神经元代表一个特征值。

在图像识别问题中，输入层的每一个神经元可能代表一个像素的灰度值。但这种神经网络用于图像识别有几个问题，一是没有考虑图像的空间结构，识别性能会受到限制；二是每相邻两层的神经元都是全相连，参数太多，训练速度受到限制。

而卷积神经网络就可以解决这些问题。卷积神经网络使用了针对图像识别的特殊结构，可以快速训练。因为速度快，使得采用多层神经网络变得容易，而多层结构在识别准确率上又很大优势。

二，卷积神经网络的结构

卷积神经网络有三个基本概念：局部感知域（local receptive fields），共享权重(shared weights)和池化（pooling）。

局部感知域: 在上图中的神经网络中输入层是用一列的神经元来表示的，在CNN中，不妨将输入层当做二维矩阵排列的神经元。

与常规神经网络一样，输入层的神经元需要和隐藏层的神经元连接。但是这里不是将每一个输入神经元都与每一个隐藏神经元连接，而是仅仅在一个图像的局部区域创建连接。以大小为28X28的图像为例，假如第一个隐藏层的神经元与输入层的一个5X5的区域连接，如下图所示：
这里写图片描述
这个5X5的区域就叫做局部感知域。该局部感知域的25个神经元与第一个隐藏层的同一个神经元连接，每个连接上有一个权重参数，因此局部感知域共有5X5个权重。如果将局部感知域沿着从左往右，从上往下的顺序滑动，就会得对应隐藏层中不同的神经元，如下图分别展示了第一个隐藏层的前两个神经元与输入层的连接情况。
这里写图片描述

如果输入层是尺寸为28X28的图像，局部感知域大小为5X5,那么得到的第一个隐藏层的大小是24X24。

共享权重： 上面得到的第一隐藏层中的24X24个神经元都使用同样的5X5个权重。第个隐藏层中第个神经元的输出为：

这里是神经元的激励函数（可以是sigmoid函数、thanh函数或者rectified linear unit函数等）。是该感知域连接的共享偏差。是个5X5共享权重矩阵。因此这里有26个参数。代表在输入层的处的输入激励。

这就意味着第一个隐藏层中的所有神经元都检测在图像的不同位置处的同一个特征。（权重共享，检测特征相同）因此也将从输入层到隐藏层的这种映射称为特征映射（或称作filters, kernels）。该特征映射的权重称为共享权重，其偏差称为共享偏差。

为了做图像识别，通常需要不止一个的特征映射，因此一个完整的卷积层包含若干个不同的特征映射。下图中是个三个特征映射的例子。
这里写图片描述
在实际应用中CNN可能使用更多的甚至几十个特征映射。以MNIST手写数字识别为例，学习到的一些特征如下：

这20幅图像分别对应20个不同的特征映射（或称作filters, kernels）。每一个特征映射由5X5的图像表示，代表了局部感知域中的5X5个权重。亮的像素点代表小的权重，与之对应的图像中的像素产生的影响要小一些。暗的像素点代表的大的权重，也意味着对应的图像中的像素的影响要大一些。可以看出这些特征映射反应了某些特殊的空间结构，因此CNN学习到了一些与空间结构有关的信息用于识别。

池化层（pooling layers） 池化层通常紧随卷积层之后使用，其作用是简化卷积层的输出。例如，池化层中的每一个神经元可能将前一层的一个2X2区域内的神经元求和。而另一个经常使用的max-pooling，该池化单元简单地将一个2X2的输入域中的最大激励输出，如下图所示：
这里写图片描述
如果卷积层的输出包含24X24个神经元，那么在池化后可得到12X12个神经元。每一个特征映射后分别有一个池化处理，前面所述的卷积层池化后的结构为：

Max-pooling并不是唯一的池化方法，另一种池化方法是