神经网络体系搭建（三）——卷积神经网络

最新推荐文章于 2024-01-02 07:43:55 发布

西西L

最新推荐文章于 2024-01-02 07:43:55 发布

阅读量681

点赞数

分类专栏：机器学习之路文章标签：人工智能神经网络卷积神经网络机器学习

本文链接：https://blog.csdn.net/Liukx940818/article/details/79073264

版权

机器学习之路专栏收录该内容

24 篇文章 0 订阅

订阅专栏

本篇是神经网络体系搭建的第三篇，解决体系搭建的卷积神经网络相关问题，详见神经网络体系搭建(序)

卷积神经网络（CNN）

卷积神经网络.png

CNN是什么

卷积神经网络是一种空间上共享参数的神经网络。

为什么会有CNN

像素间具有临近性，图片中相邻像素在一起时有特殊意义的，但是普通非卷积网络中忽略了这一点，把输入图片的每个像素与下一层的神经元相连，没有利用好这些信息，于是有了卷积神经网络。

CNN基本思想是什么

比如图片识别。卷积神经网络模仿人识别图片（狗）的一种方法：先是特定部位，比如鼻子、嘴、眼睛……把这些拼起来得到一条狗。
卷积神经网络相似，它自己通过正向和反向传播学习识别基本的直线，曲线，然后是形状，点块，然后是图片中更复杂的物体。最终 CNN 分类器把这些大的，复杂的物体综合起来识别图片。

CNN是如何工作的

How CNN works（图片来源于优达学城）
一句话讲就是，训练时候不断将图细化，自己学习特征，得到分类器。

第一个大正方体（256x265xRGB）代表一张有三个色彩通道的图片，是输入它height、wide、depth分别是256，256和3。

取图片一小块¹，运行一个有k²个输出的小网络，在不改变权重³的情况下，把小网络滑过⁴整张图片，得到一幅新图，就是第二个正方体（128x128x16），k就是depth。这个过程就是卷积。通过卷积操作不断挤压空间维度，增加深度信息，在最后放置一个分类器，根据信息进行分类。

1. 取图片一小块：取的这一块就叫patch，有时也叫kernel。
1. k是下一层的深度。
1. 不改变权重也就是权重共享
1. 滑过图片的像素就是stride（步幅），滑过有两种模式：same padding和valid padding，可以参考Tensorflow中padding的两种类型SAME和VALID。

如何得到patch/kernel呢？

使用“滤波器（Filter）”，滤波器和patch的大小一样，“照”在patch上，在图片上滑过的就是滤波器。

通常会有多个滤波器，不同滤波器提取一个 patch 的不同特性。例如，一个滤波器寻找特定颜色，另一个寻找特定物体的特定形状。卷积层滤波器的数量被称为滤波器深度
——来自优达学城

每个patch与下一层的多少个神经元相连呢？

这取决于滤波器的深度，如果深度是 k，我们把每个 patch 与下一层的 k 个神经元相连。这样下一层的高度就是 k。

为什么让1个patch连k个神经元呢？
因为一个patch可以有多个可供提取的特点。

为什么要权重共享呢？
可以控制神经网络使用的内存空间。

比如识别一张照片中的猫，猫的位置是不重要的，如果网络要识别猫在左上角的情况或者右上角的情况，那工作量就很大了。当知道输入可能包含相同类型的信息时，可以共享权重，并利用这些输入共同训练权重。

可以做这样的计算：
假设H = height, W = width, D = depth

输入数据：
- 维度为 32x32x3 (HxWxD)
- 20个滤波器，维度为 8x8x3 (HxWxD)
- stride（步长）高和宽的都为 2 (S)
- padding 大小为1 (P)

输出层：
- 14x14x20 (HxWxD)

没有参数共享，每个输出层的神经元必须连接到滤波器的每个神经元。此外，每个输出层的神经元必须连接到一个偏置神经元。

则卷积层有总共有(8 * 8 * 3 + 1) * (14 * 14 * 20) = 756560个参数。

有了参数共享，每个输出通道的神经元与相同通道的其它神经元共享权值。参数的数量与滤波器神经元的数量相同，加上偏置，再乘以输出层的通道数。

则卷积层总计有 (8 * 8 * 3 + 1) * 20 = 3840 + 20 = 3860个参数。是之前的196分之一。

CNN中如何计算卷积层的输出维度

理解维度可以帮你在模型大小和模型质量上，做精确的权衡。

假设H = height, W = width, D = depth

我们有
- 一个输入维度是 32x32x3 (HxWxD)
- 20个维度为 8x8x3 (HxWxD) 的滤波器
- 高和宽的stride（步长）都为 2。(S)
- padding 大小为1 (P)

计算新的高度和宽度的公式是：
new_height = (input_height - filter_height + 2 * P)/S + 1
new_width = (input_width - filter_width + 2 * P)/S + 1

则卷积层输出的维度为14x14x20

CNN的常见优化方法有什么

池化
1x1卷积
Inception模块

池化

我们通过调整步幅（stride），将过滤器（filter）每次移动几个像素的方法来降低特征图的尺寸，如果我们不采用每次移动多个像素的方法，而是每次依然移动很小的步幅，比如一个像素，但是把每个相邻的所有卷积通过某种操作结合在一起，这种操作就叫做池化。

通常把相邻卷积结合在一起的方式有：
- 最大池化
比如通过卷积得到一个输出层，然后我们有一个2x2的池化层，则通过池化层后的输出为2x2网格中最大的数。
- 平均池化
同样是上例，通过池化层的输出为2x2网格中所有数的平均数。

池化层的优点有：
- 减小输出大小
- 降低过拟合
缺点：
- 进行卷积的步幅小，计算量大
- 有更多的超参数要调整——（1）池化尺寸（2）池化步幅

近期，池化层不是很受青睐，因为：
- 现在数据集越来越大，我们更担心欠拟合的问题
- Dropout是一个更好的正则化方法
- 池化导致信息损失。比如n个数字的最大池化，只保留了1个数字，其余n-1个全部丢失。
——来自优达学城

1x1卷积

为什么要用1x1卷积呢？
传统卷积（图片来源于优达学城课程）

传统的卷积，它基本是运行在一小块图像上的线性分类器，但如果在中间加一个1x1卷积，就用运行在一小块图像上的神经网络，代替了线性分类器。
添加1x1卷积（图片来源于优达学城课程）

在卷积操作中散步一些1x1卷积是一种使模型变更深的低耗高效的办法，并且含有更多参数，但未完全改变神经网络结构。

Inception模块

神经网络的每一层，都可以选择进行池化、卷积运算，Inception模块不限于单个卷积运算，而是将多个模块组合，如下图：
Inception（图片来源于优达学城课程）
它看起来很复杂，但是根据你选择参数的方式，模型的参数总数可能非常少，但性能比使用简单卷积时要好。

常见的CNN网络结构有哪些？

Lenet-5,1998年，用于识别字母
CLASSIFIER
FULLY CONNECTED
FULLY CONNECTED
MAX POOLING
CONVOLUTION
MAX POOLING
CONVOLUTION
IMAGE
ALEXNET

CNN优化的超参数有哪些？

除了前几篇网络的一系列可调参数外还有：
- stride：步幅
- k：滤波器深度
- 滤波器大小，数值
如果池化的话，则还有：
（1）池化尺寸（2）池化步幅

问题回答

至此，卷积神经网络的骨架搭建完毕。
- 卷积神经网络是什么？
卷积神经网络是一种空间上共享参数的神经网络。
- 卷积神经网络和神经网络有什么区别？
有卷积层，权重共享
- 卷积神经网络模型有哪些参数可以调整（优化）？
见上。

以上内容来自822实验室神经网络知识分享
我们的822，我们的青春
欢迎所有热爱知识热爱生活的朋友和822思享实验室一起成长，吃喝玩乐，享受知识。

西西L

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录