李宏毅深度学习--《Convolutional Neural Network》

最新推荐文章于 2024-05-28 14:29:23 发布

白色的生活

最新推荐文章于 2024-05-28 14:29:23 发布

阅读量616

点赞数

分类专栏：李宏毅DeepLearning 文章标签：深度学习神经网络 cnn

本文链接：https://blog.csdn.net/GuoShao_/article/details/126585261

版权

李宏毅DeepLearning 专栏收录该内容

10 篇文章 2 订阅

订阅专栏

李宏毅深度学习

对于图像分类当然也可以使用一般的DNN；例如要对一张 $100\times100$ 的彩色图像进行分类，如下图：

在这里插入图片描述

将 $100\times100$ 的彩色图片平铺成 $100\times100 \times3$ 的一维数据作为DNN的输入(维度很大)；

DNN中的每个神经节点都可以看作是一个小的 $c l a ss i f i ers$ ，如第一层第一个神经节点用于判断是否存在绿色；第二层的神经节点使用第一层的模块去处理更复杂的任务，如第二层的第二个节点用于判断是否存在竖直的条纹。

既然DNN也能够完成任务，那为什么要使用CNN来代替DNN做图像处理呢？

Why CNN for Image?

Reason1：Some patterns are much smaller than the whole image.
假设某个神经元的任务是判断图片是否有鸟喙，这个神经元没有必要去看整个图像来判断鸟喙的寻找，可以仅通过一小部分区域就可以判断了；如下图：

前面DNN的例子，第一层判断是否存在绿色的神经元接收了全部的图像数据才进行判断，即接收了很多冗余数据。
Reason2：The same patterns appear in different regions.
鸟喙很有可能存在于图片的不同区域，若专门设置 $2$ 个不同的神经元来分布处理左上角和中间部分是否存在鸟喙(DNN中的神经元可能在执行类似的任务)，这些神经节点的任务是类似的，没必要设置这么多冗余的神经节点。
Reason3：Subsampling the pixels will not change the object.
对图像进行降采样并不会对象的特征，如下图：

CNN的任务就是通过考虑图像的属性来简化DNN网络。

CNN整体结构如下图所示：
在这里插入图片描述
输入图像经过若干的卷积层- 池化层，将输出结构平铺后再通过全连接层输出分类结果。

卷积层 $(C o n v o l u t i o n)$ 解决的是 $re a so n 1$ 和 $re a so n 2$ ，最大池化解决的是 $re a so n 3$ 。

Convolution：
吴恩达卷积网络基础
假设卷积层输入图像是一个0或1的 $6\times 6$ 的灰度图像，如下图：
在这里插入图片描述

这个图像需要和 $F i lt er 1$ 和 $F i lt er 2$ 进行卷积，卷积核1、2都是 $3\times3$ 的，如下图所示：

在这里插入图片描述

$F i lt er 1$ 是用来检测输入图像的右斜线， $F i lt er 2$ 用来检测输入图像的垂直线。

卷积就是将 $F i lt er$ 覆盖到图片上，对应位置进行相乘，最后将结果进行相加，如下图：
在这里插入图片描述
将 $F i lt er 1$ 覆盖到输入图像的红框处，对应位置相乘，再将矩阵中的数相加：
$1 * 1 + 0 * (- 1) + 0 * (- 1) + 0 * - (1) + 1 * 1 + 0 * - (1) + 0 * - (1) + 0 * - (1) + 1 * 1 = 3$

接下来就是根据步长 $s t r i d e$ 来移动红框，依次计算卷积结果； $F i lt er 1$ 卷积结果如下：

在这里插入图片描述

卷积结果左上角和左下角分别得到了最大的3，说明原始图片的左上角和左下角存在右斜线。

所以卷积结果是卷积核对原始图像特征的提取。

同样的操作给到 $F i lt er 2$ ，卷积结果是两个 $4\times4$ 的矩阵，称之为 $Feature\ Map$ ；如下图：

在这里插入图片描述

对于具有三个通道的彩色图片，每个卷积核 $F i lt er$ 的通道数都需要和输入图片一致。即对RGB彩色图片，需要用三通道的卷积核来进行卷积操作；如下图：

在这里插入图片描述

Convolution v.s. Fully Connected：
CNN和一般的DNN存在什么联系呢？

以 $F i lt er 1$ 对 $6\times6$ 图像左上角进行卷积为例子，如下图：

在这里插入图片描述
将原始图像平铺成一维数组，再与 $F i lt er$ 中的数值进行相乘。如上图右侧所示。

可以看出，红框部分就是原始图像的局部采样，相当于一般DNN中 $in p u t$ 的部分输入；(这点即 $Why\ CNN?$ 的 $re a so n 1$ )

$F i lt er$ 就相当于一般DNN中的权重 $w$ ，但采用的不是 $Full\ Connection$ 。

这样做的好处有：1. 更少的参数；2. 共享权重( $F i lt er$ )。

Max Pooling：

最大池化就是对卷积结果划分窗口，然后保留窗口中的最大值作为输出。

如下图，对 $F i lt er 1$ 和 $F i lt er 2$ 的卷积结果划分窗口，然后取最大值作为输出。
在这里插入图片描述
$F i lt er 1$ 的最大池化结果：
$\begin{bmatrix} 3 & 0 \\ 3 & 1 \\ \end{bmatrix}$

$F i lt er 2$ 的最大池化结果：
$\begin{bmatrix} -1 & 1 \\ 0 & 3 \\ \end{bmatrix}$

这个过程像是 $f e a t u res$ 信息的压缩，如 $F i lt er 1$ 的最大池化结果，保留了左上角和左下角的3，其余无效信息丢弃，保留了左上角和左下角存在右斜线的信息。

$6\times6$ 图片经过一层卷积+一层最大池化的结果如下图：
在这里插入图片描述
得到了一个保留原始图像大部分特征的更小维度的新图片。

卷积层有多少个卷积核，卷积结果就会有多少个通道。
如上述例子只有 $f i lt er 1 、 2$ 两个卷积核，输出结果是一个 $2$ 通道的 $4\times4图片$
池化层不会改变通道数，只会影响输出结果的宽和高。
如上述例子将 $4\times4$ 的卷积结果变成了 $2\times2$ 的矩阵。
.
【个人理解】所以卷积层的任务是提取图像特征，池化层是压缩卷积层提取的特征。

Flatten：
平铺层是将池化结果平铺成一维数组，作为输出输入到全连接神经网络中；如下图：

在这里插入图片描述

What does CNN learn？

以下面的CNN结构为例子进行讨论：
在这里插入图片描述

已知第 $2$ 个卷积层包含 $50$ 个 $3\times3$ 的 $f i lt er$ ，输出的卷积结果维度为 $50\times11\times11$ ；抽取第 $k$ 个卷积核的卷积结果，如下图所示：

在这里插入图片描述

定义第 $k$ 卷积核的卷积输出的第 $i$ 行第 $j$ 列的元素为 $a^k_{ij}$ 。

并定义第 $k$ 个卷积核的激活程度为：
$a^k=\sum\limits_{i=1}^{11} \sum\limits_{j=1}^{11}a^k_{ij}$

为了可视化第 $k$ 个 $f i lt er$ 学到了什么，需要找到一张输入图片 $x$ ，能够使 $a^k$ 最大化，即：
$x=argmax\ a^k$

$x$ 的值可以通过 $gradient\ descent$ 的方式去寻找，输入 $x$ 就是我们需要找到的参数。

个人理解：
第 $k$ 个 $f i lt er$ 的卷积输出代表了这个 $f i lt er$ 对输入图片 $f e a t u res$ 提取的结果。
当输入图片的特性( $f e a t u res$ )越满足 $f i lt er$ 提取的特征，激活程度 $a^k$ 就越大。
例如，假设 $f i lt er$ 提取的是图像中的竖直条纹，当输入图像全是数值条纹时，该 $f i lt er$ 对图像的卷积结果的值就会较大，那么 $a^k$ 也会很大。

下面是对其中 $12$ 个 $f i lt er$ 执行上述操作得到的输入图像 $x$ ：

在这里插入图片描述

可以隐约看到最后一个 $f i lt er$ 是对左斜线纹理的提取。

同样的原理，我们将目标转向找到输入图像 $x$ ，使全连接层的某个神经节点输出 $a^j$ 达到最大值，如下图所示
在这里插入图片描述

$x$ 可视化的结果如上图所在，这 $9$ 张图片和之前 $f i lt er$ 所观察到的情形使很不一样的；不再是单一的纹理，而更倾向于探测一个完整的图案。

补充一点，这个卷积网络是用于手写数字识别的；现在将目光放到输出层上：
在这里插入图片描述
输出 $x$ 的可视化和手写体一点都不像，就像电视机没频道的样子。

为了验证是否是试验出了问题，尝试的去优化一下寻找 $x$ 的损失函数； $x$ 输出图像中黑色代表空白处，白色代表笔迹；我们希望空白的地方不要那么多，笔迹能够少且更清楚一些。所以在 $x=argmax\ y^i$ 加上一个惩罚项(类似于正则化)：
$x=argmax(y^i-\sum\limits_{i,j}|x_{ij}|)$

得到的结果如下：

在这里插入图片描述

可以看到第 $6$ 张和手写数字 $6$ 还是有点像的。

但是其他有些就完全不一样，这样的原因是因为 $neural\ network$ 学到的东西和人类一般想象的认知是不一样的，

Deep Dream

$Deep\ Dream$ 就是将CNN学到的东西可视化的一个例子。

准备好一个 $CNN$ 和一张图片，将图片丢到 $CNN$ 里面去；然后将 $CNN$ 中的 $convolution\ layer$ 里面的 $f i lt er$ 或者 $fully\ connected\ layer$ 里的某一个 $hidden\ layer$ 的 $o u tp u t$ 拿出来，其实就是一个向量 $(v ec t or)$ ；如下图所示：

在这里插入图片描述
得到这个向量后，将正的值调大，将负的值调小；目的是为了夸大 $CNN$ 学到的东西。接下来以这个调整后的 $v ec t or$ 为目标，反向传播学习输入 $x$ 。

丢入的图片如下：
在这里插入图片描述
学习到的输入 $x$ 如下：

这图片多了好多动物，如右上角的石头变成了一只熊。对于机器来说这个石头可能有点像熊，经过我们的夸大学习目标后，这个石头看起来就变成了一只熊。这就是 $\ Dream$ 。

与之类是的还有 $Deep\ Style$ ，即神经风格迁移

CNN的更多应用：

(1) $Playing\ Go$ ：
在这里插入图片描述

$Why\ CNN\ for\ playing\ Go?$ (上面的 $re a so n 1 、 2 、 3$ )

Some patterns are much smaller than the whole image
可能只需要看局部棋盘就能够决定下哪，如下图：
The same patterns appear in different regions.
棋盘上有很多一样的棋局，如下图：
关于 $re a so n 3$ ：Subsampling the pixels will not change the object.
$Alpha\ Go$ 中是没有使用 $Max\ Pooling$ 的。

所以 $CNN$ 不一定只使用在图片上，有和图片相类似性质的都能够使用 $CNN$ 去操作。

$CNN$ 也可以应用到语音识别、文字情绪分类上。

总结

使用CNN的三个基础条件：
1、Some patterns are much smaller than the whole image
2、The same patterns appear in different regions
3、Subsampling the pixels will not change the object
$CNN$ 的卷积层针对上面的 $1$ 和 $2$ ，池化层针对 $3$
$CNN$ 可以使用在非图像领域。