干货 | 深度学习之卷积神经网络(CNN)的模型结构

最新推荐文章于 2024-08-24 11:17:37 发布

机器学习算法与Python学习

最新推荐文章于 2024-08-24 11:17:37 发布

阅读量6.1k

点赞数 2

微信公众号

关键字全网搜索最新排名

【机器学习算法】：排名第一

【机器学习】：排名第一

【Python】：排名第三

【算法】：排名第四

前言

在前面我们讲述了DNN的模型与前向反向传播算法。而在DNN大类中，卷积神经网络(Convolutional Neural Networks，以下简称CNN)是最为成功的DNN特例之一。CNN广泛的应用于图像识别，当然现在也应用于NLP等其他领域，本文我们就对CNN的模型结构做一个总结。

在学习CNN前，推荐大家先学习DNN的知识。可以查看之前的文章

深度学习之DNN与前向传播算法

深度学习之DNN与反向传播算法

干货 | 深度学习之损失函数与激活函数的选择

干货 | 深度学习之DNN的多种正则化方式

CNN的基本结构

一个常见的CNN例子如下图：

上图是一个图形识别的CNN模型。可以看出最左边的图像就是我们的输入层，计算机理解为输入若干个矩阵，这点和DNN基本相同。

接着是卷积层（Convolution Layer）,这个是CNN特有的，我们后面专门来讲。卷积层的激活函数使用的是ReLU。我们在DNN中介绍过ReLU的激活函数，它其实很简单，就是ReLU(x)=max(0,x)。在卷积层后面是池化层(Pooling layer)，这个也是CNN特有的，我们后面也会专门来讲。需要注意的是，池化层没有激活函数。

卷积层+池化层的组合可以在隐藏层出现很多次，上图中出现两次。而实际上这个次数是根据模型的需要而来的。当然我们也可以灵活使用使用卷积层+卷积层，或者卷积层+卷积层+池化层的组合，这些在构建模型的时候没有限制。但是最常见的CNN都是若干卷积层+池化层的组合，如上图中的CNN结构。

在若干卷积层+池化层后面是全连接层（Fully Connected Layer, 简称FC），全连接层其实就是我们前面讲的DNN结构，只是输出层使用了Softmax激活函数来做图像识别的分类，这点我们在DNN中也有讲述。

从上面CNN的模型描述可以看出，CNN相对于DNN，比较特殊的是卷积层和池化层，如果我们熟悉DNN，只要把卷积层和池化层的原理搞清楚了，那么搞清楚CNN就容易很多了。

初识卷积

首先，我们去学习卷积层的模型原理，在学习卷积层的模型原理前，我们需要了解什么是卷积，以及CNN中的卷积是什么样子的。

大家学习数学时都有学过卷积的知识，微积分中卷积的表达式为：

离散形式为：

矩阵形式为：

如果是二维的卷积，则表示式为：

在CNN中，虽然我们也是说卷积，但是我们的卷积公式和严格意义数学中的定义稍有不同,比如对于二维的卷积，定义为：

这个式子虽然从数学上讲不是严格意义上的卷积，但是大牛们都这么叫了，那么我们也跟着这么叫了。后面讲的CNN的卷积都是指的上面的最后一个式子。其中，我们叫W为我们的卷积核，而X则为我们的输入。如果X是一个二维输入的矩阵，而W也是一个二维的矩阵。但是如果X是多维张量，那么W也是一个多维的张量。

CNN的卷积层

有了卷积的基本知识，我们现在来看看CNN中的卷积，假如是对图像卷积，回想我们的上一节的卷积公式，其实就是对输出的图像的不同局部的矩阵和卷积核矩阵各个位置的元素相乘，然后相加得到。

举个例子如下：图中的输入是一个二维的3x4的矩阵，而卷积核是一个2x2的矩阵。这里我们假设卷积是一次移动一个像素来卷积的，那么首先我们对输入的左上角2x2局部和卷积核卷积，即各个位置的元素相乘再相加，得到的输出矩阵S的S00的元素，值为aw+bx+ey+fz。接着我们将输入的局部向右平移一个像素，现在是(b,c,f,g)四个元素构成的矩阵和卷积核来卷积，这样我们得到了输出矩阵S的S01的元素，同样的方法，我们可以得到输出矩阵S的S02，S10，S11，S12的元素。