李宏毅老师课程：Convolutional Neural Network

最新推荐文章于 2022-05-29 01:08:35 发布

APythonC

最新推荐文章于 2022-05-29 01:08:35 发布

阅读量524

点赞数 1

分类专栏：机器学习

本文链接：https://blog.csdn.net/APythonC/article/details/107690669

版权

机器学习专栏收录该内容

25 篇文章 1 订阅

订阅专栏

卷积神经网络

Why CNN for Image？
Three Property for CNN Theory Base
The Whole CNN Structure
CNN – Convolution
Colorful image
Convolution V.s. Fully Connected
CNN – Max Pooling
- Operation of max pooling
- Convolution + Max Pooling
Flatten

Why CNN for Image？

如下图：

第一个layer的neuron，是最简单的classifier，它做的事情是detect有没有绿色出现、有没有黄色出现、有没有斜的条纹出现等等
第二个layer，它做的事情是detect更复杂的东西，根据第一个layer的output，它如果看到直线横线，就是窗框的一部分；如果看到棕色的直条纹就是木纹；看到斜条纹加灰色的，这个有可能是很多东西，比如说，轮胎的一部分等等
根据第二个hidden layer的output，第三个hidden layer会做更复杂的事情，比如它可以知道说，当某一个neuron看到蜂巢，它就会被activate；当某一个neuron看到车子，它就会被activate；当某一个neuron看到人的上半身，它就会被activate等等

在这里插入图片描述
现在的问题是这样子：当我们直接用一般的fully connected的feedforward network来做图像处理的时候，往往会需要太多的参数

所以，CNN做的事情其实是，来简化这个neural network的架构，我们根据自己的知识和对图像处理的理解，一开始就把某些实际上用不到的参数给过滤掉，我们一开始就想一些办法，不要用fully connected network，而是用比较少的参数，来做图像处理这件事情，所以CNN其实是比一般的DNN还要更简单的

Three Property for CNN Theory Base

Some patterns are much smaller than the whole image

在影像处理里面，如果在network的第一层hidden layer里，那些neuron要做的事情是侦测有没有一种东西、一种pattern(图案样式)出现，那大部分的pattern其实是比整张image要小的，所以对一个neuron来说，想要侦测有没有某一个pattern出现，它其实并不需要看整张image，只需要看这张image的一小部分，就可以决定这件事情了

也就是说，每一个neuron其实只要连接到一个小块的区域就好，它不需要连接到整张完整的图，因此也对应着更少的参数
在这里插入图片描述
The same patterns appear in different regions

同样的pattern，可能会出现在image的不同部分，但是它们有同样的形状、代表的是同样的含义，因此它们也可以用同样的neuron、同样的参数，被同一个detector检测出来

也就是说，我们可以要求这些功能几乎一致的neuron共用一组参数，它们share同一组参数就可以帮助减少总参数的量
在这里插入图片描述
Subsampling the pixels will not change the object（对像素进行二次采样不会改变对象）

我们可以对一张image做subsampling(二次抽样)，假如你把它奇数行、偶数列的pixel拿掉，image就可以变成原来的十分之一大小，而且并不会影响人对这张image的理解，对你来说，下面两张大小不一的image看起来不会有什么太大的区别，你都可以识别里面有什么物件，因此subsampling对图像辨识来说，可能是没有太大的影响的。所以，我们可以利用subsampling这个概念把image变小，从而减少需要用到的参数量
在这里插入图片描述

The Whole CNN Structure

整个CNN的架构是这样的：

首先，input一张image以后，它会先通过Convolution的layer，接下来做Max Pooling这件事，然后再去做Convolution，再做Maxi Pooling…，这个process可以反复进行多次(重复次数需要事先决定)，这就是network的架构，就好像network有几层一样，你要做几次convolution，做几次Max Pooling，在定这个network的架构时就要事先决定好

当你做完先前决定的convolution和max pooling的次数后，你要做的事情是Flatten，做完flatten以后，你就把Flatten output丢到一般的Fully connected network里面去，最终得到影像辨识的结果
在这里插入图片描述
我们基于之前提到的三个对影像处理的观察，设计了CNN这样的架构，第一个是要侦测一个pattern，你不需要看整张image，只要看image的一个小部分；第二个是同样的pattern会出现在一张图片的不同区域；第三个是我们可以对整张image做subsampling

那前面这两个property，是用convolution的layer来处理的；最后这个property，是用max pooling来处理的
在这里插入图片描述

CNN – Convolution

假设现在我们network的input是一张6x6的image，图像是黑白的，因此每个pixel只需要用一个value来表示，而在convolution layer里面，有一堆Filter，这边的每一个Filter，其实就等同于是Fully connected layer里的一个neuron

Property 1

在这里插入图片描述
当Filter侦测的时候，并不会去看整张image，它只看一个3*3范围内的pixel，就可以判断某一个pattern有没有出现，这就考虑了property 1

Property 2

这个filter是从image的左上角开始，做一个slide window（滑动窗），每次向右挪动一定的距离，这个距离就叫做stride（步长），由你自己设定，每次filter停下的时候就跟image中对应的3x3的matrix做一个内积(相同位置的值相乘并累计求和)，这里假设stride=1，那么我们的filter每次移动一格，当它碰到image最右边的时候，就从下一行的最左边开始重复进行上述操作，经过一整个convolution的process，最终得到下图所示的红色的4x4 matrix
在这里插入图片描述
观察上图中的Filter1，它斜对角的地方是1,1,1，所以它的工作就是detect有没有连续的从左上角到右下角的1,1,1出现在这个image里面，检测到的结果已在上图中用蓝线标识出来，此时filter得到的卷积结果的左上和左下得到了最大的值，这就代表说，该filter所要侦测的pattern出现在image的左上角和左下角

同一个pattern出现在image左上角的位置和左下角的位置，并不需要用到不同的filter，我们用filter1就可以侦测出来，这就考虑了property 2

Feature Map

在一个convolution的layer里面，它会有一打filter，不一样的filter会有不一样的参数，但是这些filter做卷积的过程都是一模一样的，你把filter2跟image做完convolution以后，你就会得到另外一个蓝色的4x4 matrix，那这个蓝色的4x4 matrix跟之前红色的4*4matrix合起来，就叫做Feature Map(特征映射)，有多少个filter，对应就有多少个映射后的image
在这里插入图片描述

Colorful image

当image是彩色时，filter就不再是一个matrix了，它会是一个立方体，如果是RGB这三个颜色来表示一个pixel的话，那input就是3x6x6，filter就是3x3x3，filter的高就是3，在做convolution的时候，就是把这个filter的9个值跟这个image里面的9个值做内积，得到的也是一个三层的output，每一个filter同时就考虑了不同颜色所代表的channel
在这里插入图片描述

Convolution V.s. Fully Connected

filter是特殊的“neuron”
convolution其实就是fully connected的layer把一些weight拿掉而已
每个“neuron”只检测image的部分区域
“neuron”之间共享参数

当filter在image matrix上移动做convolution的时候，每次移动做的事情实际上是去检测这个地方有没有某一种pattern，对于Fully connected layer来说，它是对整张image做detection的，因此每次去检测image上不同地方有没有pattern其实是不同的事情，所以这些neuron都必须连接到整张image的所有pixel上，并且不同neuron的连线上的weight都是相互独立的

那对于convolution layer来说，首先它是对image的一部分做detection的，因此它的neuron只需要连接到image的部分pixel上，对应连线所需要的weight参数就会减少；其次由于是用同一个filter去检测不同位置的pattern，所以这对convolution layer来说，其实是同一件事情，因此不同的neuron，虽然连接到的pixel对象各不相同，但是在“做同一件事情”的前提下，也就是用同一个filter的前提下，这些neuron所使用的weight参数都是相同的，通过这样一张weight share的方式，再次减少network所需要用到的weight参数

CNN – Max Pooling

Operation of max pooling

max pooling就是做subsampling，根据filter 1，我们得到一个4x4的matrix，根据filter 2，得到另外一个4x4的matrix，接下来，把output四个分为一组，每一组里面通过选取平均值或最大值的方式，把原来4个value合成一个 value，相当于在image每相邻的四块区域内都挑出一块来检测，这种subsampling的方式就可以让image缩小
在这里插入图片描述

Convolution + Max Pooling

做完一次convolution加一次max pooling，我们就把原来6x6的image，变成了一个2x2的image；至于这个2x2的image，它每一个pixel的深度，也就是每一个pixel用几个value来表示，就取决于有几个filter
在这里插入图片描述

Flatten

Flatten的意思是，把左边的feature map拉直，然后把它丢进一个Fully connected Feedforward network，然后就结束了，也就是说，我们之前通过CNN提取出了image的feature，它相较于原先一整个image的vetor，少了很大一部分内容，因此需要的参数也大幅度地减少了，但最终，也还是要丢到一个Fully connected的network中去做最后的分类工作
在这里插入图片描述
本文图片来自李宏毅老师课程PPT，文字是对李宏毅老师上课内容的笔记或者原话复述，在此感谢李宏毅老师的教导。