卷积神经网络基础

最新推荐文章于 2024-07-09 23:15:27 发布

lyd1995

最新推荐文章于 2024-07-09 23:15:27 发布

阅读量553

点赞数 1

分类专栏：神经网咯

本文链接：https://blog.csdn.net/lyd1995/article/details/85251580

版权

神经网咯专栏收录该内容

3 篇文章 0 订阅

订阅专栏

卷积神经网络（Convolutional Neural Networks, CNN）

一、卷积神经网络的基本概念

1、卷积核

卷积核就是图像处理时，给定输入图像，在输出图像中每一个像素是输入图像中一个小区域中像素的加权平均，其中权值由一个函数定义，这个函数称为卷积核。

卷积核可以由张量表示，张量大小： $n\times m\times channel$

这里的$ channel $与输入的图片有关，灰度图片：$ channel=1 $，彩色图片：$ channel=3$

而 $n$ 和 $m$ 自行决定，大于0即可，并且： $n = m$ ，因为卷积实际上是根据滤波器或内核对源数据矩阵（整个图像）进行编码，如果使用了非对称的卷积核则会出现混叠错误。

这么说可能还是比较抽象，给出一个灰度图片卷积核的例子：

在这里插入图片描述

彩色图片卷积核的例子：

在这里插入图片描述

卷积核内的参数也就是权重，根据需要选择不同的参数，会有不一样的效果

2、卷积计算

（1）无填充的卷积计算

卷积计算需要使用上面的卷积核，将相应的卷积核以固定步长（stride）滑过整张图像并计算，得到计算结果即是卷积后的图像，下面以一个例子来说明如何进行卷积计算：
给出一个 $6\times 6$ 大小的灰度图像矩阵，卷积核的大小： $3\times 3$ :

在这里插入图片描述

先从卷积结果的第一行第一列的-2为例，看看是如何计算得出的：

在这里插入图片描述

如上图所示，将卷积核放置到图像的对应位置:

在这里插入图片描述

对应位置的元素相乘，再求和：

$(1\times 3 +1\times 1+2\times1)+(0\times 0+0\times 0+7\times 0)+(1\times (-1)+1\times(-1)+6\times(-1))=-2$

以固定步长（这里将步长设为1）向右移动一个单位长度：

在这里插入图片描述

计算，相乘再求和：

$(0\times 3 +0\times 1+7\times1)+(1\times 0+1\times 0+6\times 0)+(2\times (-1)+1\times(-1)+9\times(-1))=-5$

如此反复，直到卷积核滑过整个图像，从结果来看，卷积之后的图像比原来的图像小了一圈，卷积之后的图像尺寸取决于卷积核的尺寸（n）与移动步长（stride）。设原始图像的大小为： $x\times y$ ，卷积核的大小： $n\times n$ ，步长： $s$ ，卷积后图像的尺寸：

$x_1 = \frac {x-n+1}{s}$

$y_1 = \frac {y-n+1}{s}$

（2）填充（padding）的卷积计算

之前的卷积计算会使得图像“缩小”，对于某些情况（比如：原始图像非常小），可能不希望经过卷积后特征减少，这时可以采用零填充。
还是使用（1）中的例子：

在这里插入图片描述

图中蓝色部分即为填充部分，填充（padding）的卷积计算只是在计算前，在图像外围填充0，使得图像在经过卷积计算之后，大小不变。设填充层数为d，由（1）中公式可知，若要使得卷积后的图像大小不变，d应该满足：

$d=\frac {(s-1)x+n-1}{2}$

二、卷积神经网络的层级结构

1、数据输入层

这是CNN的第一层主要是接收输入数据，实际上在很多神经网络中，数据输入层不计入神经网络的层数

2、卷积计算层

这一层是CNN的核心，用于卷积计算。其实质是将图像重新编码，提取其中的有效特征。

3、激活层

将卷积层的输出做非线性映射，一般采用ReLu函数。
ReLu函数： $g (z) = m a x (0, z)$ ，这个函数也是目前最常用的激活函数，需要注意的是在 $z = 0$ 这个点上，ReLu函数是不可导的，需要人为的定义函数在这个点的导数，但是在计算机里面，一般来说，不会出现 $z = 0.0000000$ 的情况