卷积神经网络 — Convolutional Neural Network

最新推荐文章于 2024-06-17 21:02:07 发布

_rho

最新推荐文章于 2024-06-17 21:02:07 发布

阅读量734

点赞数 1

分类专栏：机器学习文章标签：卷积神经网络

机器学习专栏收录该内容

14 篇文章 0 订阅

订阅专栏

卷积神经网络相较于 $B P$ 神经网络的进步主要是极大地减少了构建网络所需要的参数。对于一个 $1000 * 1000$ 像素的 $R G B$ 图像（ $w i d t h = 1000, h e i g h t = 1000, d e p t h = 3$ ），如果应用单层、十个神经元的BP神经网络构建网络模型，那么该网络就需要计算 $10 * 1000 * 1000 * 3 + 10$ 个参数的梯度。如果网络的层数或神经元数目增加，该模型的计算成本将无比巨大。Hubel和Wiesel在研究猫脑皮层时发现了局部感受野（某些神经细胞对于特定部分的视觉区域敏感），并据此提出了卷积神经网络，不再像 $B P$ 神经网络那样采用全连接。如下图（图取自）：

这里写图片描述

Filter

根据局部感受野，卷积神经网络引入了 $f i l t e r$ （在部分学术文章中，也称 $k e r n e l$ ）的概念。假设我们有一张 $5 * 5$ 像素的灰度图像 $i n p u t$ ， $2 * 2$ 的 $f i l t e r$ 对 $i n p u t$ 卷积后的结果如下图 $o u t p u t$ 所示。有一点需要注意！ $f i l t e r$ 的 $d e p t h$ 值始终和其输入数据的 $d e p t h$ 值一致，且 $o u t p u t$ 的 $d e p t h = 1$ 。但是可以应用多个 $f i l t e r$ 对同一个输入数据卷积，并将其 $o u t p u t s$ 叠在一起形成网络下一层的输入， $o u t p u t s$ 的 $d e p t h$ 等于 $f i l t e r$ 的数目。
这里写图片描述

下面给出卷积的公式：
$Conv_f(Input) \\ Output_{i,j} = \sum\limits_{h=0}^{H_f-1} \sum\limits_{w=0}^{W_f-1} \sum\limits_{d=1}^{D_f} Input_{i+h,j+w,d}*filter_{i+h,j+w,d}$

其中， $\in \{1,2,\dots,H_I-H_f+1\}; j \in \{1,2,\dots,W_I-W_f+1\}$ 。 $H_I$ 和 $H_f$ 表示 $I n p u t$ 和 $f i l t e r$ 的 $h e i g h t$ ， $W_I$ 和 $W_f$ 表示 $I n p u t$ 和 $f i l t e r$ 的 $w i d t h$ 。

Zero-Padding

观察上例可以发现，直接对原始数据 $I n p u t$ 进行卷积，会造成每个像素对输出的贡献不均衡。例如， $I n p u t [1, 1]$ 对 $O u t p u t$ 只有一次影响，而 $I n p u t [3, 3]$ 对 $O u t p u t$ 有四次影响。或者是想控制 $O u t p u t$ 的 $h e i g h t$ 或 $w i d t h$ 。都可以通过对原始数据的上下、左右四侧填充 $0$ 。
这里写图片描述

Stride

同时，我们也可以调整 $f i l t e r$ 的移动步伐。如下图：
这里写图片描述

结合 $P a d d i n g$ 和 $S t r i d e$ ， $I n p u t$ 、 $f i l t e r$ 和 $O u t p u t$ 之间的维度关系如下：
$Depth_{filter} = Depth_{Input} \\ Height_{Output} = \frac {Height_{Input} + 2*Padding - Height_{filter}}{Stride} + 1 \\ Width_{Output} = \frac {Width_{Input} + 2*Padding - Width_{filter}}{Stride} + 1 \\ Depth_{Output} = 1$

卷积层

至此，我们已经可以构建出 $C N N$ 的卷积层了。如下图：
这里写图片描述

Pooling层

通过增减卷积层 $f i l t e r$ 的数目，可以控制该卷积层输出数据的 $d e p t h$ ，避免过拟合。而 $P o o l i n g$ 层的目的则是控制输出数据的 $h e i g h t$ 和 $w i d t h$ 。 $P o o l i n g$ 主要有 $average\ pooling$ 和 $max\ pooling$ ，故名思义，前一个是在计算 $f i l t e r$ 覆盖范围内值的均值，后一个选取 $f i l t e r$ 覆盖范围内的最大值。如下图：
这里写图片描述

请注意！ $P o o l i n g$ 层中 $f i l t e r$ 的 $d e p t h$ 始终为1，不改变输入数据的 $d e p t h$ 值。输入数据与输出数据的深度一致。结合上面的卷积层， $C N N$ 网络演变如下：
这里写图片描述

全连接层

最后，介绍卷积神经网络中的最后一种网络层——全连接层。在 $C N N$ 中，继输入层后，会连续交替放置若干个卷积层和 $P o o l i n g$ 层的组合，然后将最后一层 $P o o l i n g$ 层向量化，放置全连接层，输出层多采用 $S o f t m a x$ 或 $Logistic\ Regression$ 做分类输出。完整的 $C N N$ 网络如下图：
这里写图片描述