04.卷积神经网络 —— week1. 卷积神经网络基础

本文链接：https://blog.csdn.net/iCode_girl/article/details/88077553

1. 计算机视觉

计算机视觉（Computer Vision）包含很多不同类别的问题，如图片分类、目标检测、图片风格迁移等等。
在这里插入图片描述
对于小尺寸的图片问题，也许我们用深度神经网络的结构可以较为简单的解决一定的问题。但是当应用在大尺寸的图片上，输入规模将变得十分庞大，使用神经网络将会有非常多的参数需要去学习，这个时候神经网络就不再适用。

卷积神经网络在计算机视觉问题上是一个非常好的网络结构。

2. 边缘检测示例

卷积运算是卷积神经网络最基本的组成部分。前面的课程说过神经网络的前几层是如何检测边缘的，如下图所示，类似的例子，还有如何检测图像中的水平or垂直边缘。
在这里插入图片描述
如下图所示，左边是一个661的矩阵，表示一个灰度图像，中间矩阵表示一个kernel or filter。右边矩阵表示运算得到的图像。

为什么这样就可以做垂直边缘检测呢？

区分正边和负边

使用不同的滤波器，可以找出垂直的或水平的边缘：
在这里插入图片描述
其它滤波器：

对于复杂的图片，我们可以直接将 filter 中的数字直接看作是需要学习的参数，其可以学习到对于图片检测相比上面filter更好的更复杂的 filter ，如相对于水平和垂直检测器，我们训练的 filter 参数也许可以知道不同角度的边缘。

通过卷积运算，在卷积神经网络中通过反向传播算法，可以学习到相应于目标结果的 filter，将其应用于整个图片，输出其提取到的所有有用的特征。

3. Padding

一个 $n$ x $n$ 的图像，用一个 $f$ x $f$ 的过滤器做卷积，输出结果的维度是 $(n - f + 1)$ x $(n - f + 1)$ 。

两个缺点：

每次做卷积操作图像就会缩小。
角落或者边缘区域的像素点在输出时采用较少，也就是丢失了图像边缘位置的许多信息。

solution —— pad the image

在图像周围填充 $p$ 个像素点，输出就变成了 $n + 2 * p - f + 1$ 。

关于p的选择，有两种方式：

Valid：不填充， $p = 0$ ；
Same：填充后输出大小和输入大小是一样的， $p = (f - 1) / 2$ 。

$f$ 一般是奇数：

对称填充；
奇数过滤器有中心点。

4. 卷积步长

用一个 $f$ x $f$ 的过滤器，卷积一个 $n$ x $n$ 的图像，padding为 $p$ ，步长为 $s$ ，那么输出图像的维度为 $\lfloor\frac{n+2p-f}{s}+1\rfloor$ x $\lfloor\frac{n+2p-f}{s}+1\rfloor$ （向下取整：只在蓝框完全包括在图像或填充完的图像内部时，才进行运算。即过滤器必须完全处于图像中或填充之后的图像区域内，才输出相应结果。）
在这里插入图片描述
卷积和互相关：

5. 立体卷积

在这里插入图片描述
Notation：

过滤器的通道和图像的通道数要保持一致。
可以设置过滤器参数，使只检测红色通道的边缘特征或三种颜色的边缘特征。
可以用多个过滤器和图像做卷积，得到多种特征，输出的通道数就是提取的特征种类数（过滤器个数）。

6. 简单卷积网络

卷积神经网络的某一卷积层的工作原理，以及如何计算某一卷积层的激活值并映射到下一层的激活值。

单层卷积网络的例子：

和普通的神经网络单层前向传播的过程类似，卷积神经网络也是一个先由输入和权重及偏置做线性运算，然后得到的结果输入一个激活函数中，得到最终的输出：

$z^{[1]}=w^{[1]}a^{[0]}+b^{[1]}$

$a^{[1]}=g(z^{[1]})$

不同点是：在卷积神经网络中，权重和输入进行的是卷积运算。
在这里插入图片描述
单层卷积的参数个数：

在一个卷积层中，如果我们有10个 3\times3\times3 大小的卷积核，那么加上每个卷积核对应的偏置，则对于一个卷积层，我们共有的参数个数为： $(3\times3\times3+1)\times10 = 280$
在这里插入图片描述
无论图片大小是多少，该例子中的卷积层参数个数一直都是280个，相对于普通的神经网络，卷积神经网络的参数个数要少很多。

标记的总结：

如果 $l$ 表示一个卷积层：

$f^{[l]}$ ：filter 的大小；
$p^{[l]}$ ：padding；
$s^{[l]}$ ：步长（stride）；
卷积核的个数： $n^{[l]}_{C}$ ；
filter大小： $f^{[l]}\times f^{[l]}\times n^{[l-1]}_{C}$ ;
激活值（Activations）： $a^{[l]}—>n^{[l]}_{H}\times n^{[l]}_{W}\times n^{[l]}_{C}$ ；
权重（Weights）： $f^{[l]}\times f^{[l]}\times n^{[l-1]}_{C}\times n^{[l]}_{C}$ ；
偏置（bias）： $n^{[l]}_{C}——(1,1,1,n^{[l]}_{C})$
Input： $n^{[l-1]}_{H}\times n^{[l-1]}_{W}\times n^{[l-1]}_{C}$ ；
Output： $n^{[l]}_{H}\times n^{[l]}_{W}\times n^{[l]}_{C}$ ；
其中， $n^{[l]}_{H} = \left\lfloor \dfrac{n^{[l-1]}_{H}+2p^{[l]}-f^{[l]}}{s^{[l]}}+1 \right\rfloor ， n^{[l]}_{W} = \left\lfloor \dfrac{n^{[l-1]}_{W}+2p^{[l]}-f^{[l]}}{s^{[l]}}+1 \right\rfloor$ 。