1. CNN的两大特点
李宏毅老师在课程的第一张PPT就提出了这样一个问题:“我们可以通过考虑图片的性质来简化我们的网络呢?”。对于图像处理而言,这是一个十分有价值的思考题。因为我们通常面对的图像数据都是一个很大维度的矩阵,如果我们简单地采用全连接神经网络去处理这种数据,会导致参数过大,训练过程十分繁琐。为了解决这种问题,CNN应运而生。
在介绍CNN究竟是怎么利用图像特点来训练之前,我们首先给出CNN的两大特征,之后,会详细阐明这两大特征。
- 提取图像的突出特征去学习,而不是学习整个图片
- 在保留图片特征的情况下减小图像的大小
这两大特征对应了CNN的两个著名的操作:卷积和池化。
1.1 卷积
卷积的意义在于发现图像的突出特征。以下面这张图为例,如果我们的任务是分别鸟和人的图像,那我们完全没必要去学习整张图片,我们只需要去学习鸟的嘴部这一突出特征即可了(显然人没有这么尖的嘴部)。
了解完卷积的意义后,我们来看一下卷积具体是怎么操作的。我们来看一个动图(其实卷积就像是一个刷子,把原图像的矩阵从左到右从上到下刷了一遍,得到了一个新的图像矩阵)
而每次是怎么从原图像矩阵得到新图像矩阵对应位置的值呢?我们从下面这幅图可以看出,我们只需将原图像矩阵的值和卷积核对应位置的值相乘再相加,即可得到新图像矩阵对应位置的值了。之后按照上面动图的方式不断移动卷积核,即可得到新的图像矩阵。
了解了卷积的具体操作后,接下来的问题就是:卷积操作是怎么提取图像特征的呢?大家可以移步到大佬的这篇文章 卷积核与特征提取
,文章中详细讲解了卷积是怎么提取图像特征的,我在这里就不班门弄斧了。
1.2 池化
如下图一样,我们在生活中经常做这样的操作,即把图片缩小,且通常并不会影响图片的特征。那CNN会做这样的操作吗?答案是会的,即池化操作。
池化通常有最大池化和平均池化,其中最大池化的使用更加常见。池化的具体操作可以从下图中看出(下图中的池化都是选取的22的池化层):平均池化即将22中的四个值取平均得到池化后的值;最大池化即将2*2的四个值的最大值作为池化后的值。
池化的意义可以理解为(我们以最大池化为例):提取相应矩阵里面的最大特征,因为通常情况下,一片小区域内的最大值就可以代表这一小片区域的特征。
2. CNN 完整流程
在介绍完CNN的两大操作,卷积和池化,之后,我们就可以给出完整的CNN流程了。我们在完成卷积和池化后,会把相应的矩阵“拉直”成一条长的向量,之后再做一个全连接的操作,得到最后的输出。
3. CNN眼中的图像
在我们眼中,数字1的图像呈现的就是数字1,可是对于CNN而言呢?他眼中的数字1是什么样子的呢?李宏毅老师在他的课程中给出了相应的答案。
对于下图中的第二个卷积层,他的输出是50个1111的矩阵,我们设定1111矩阵的所有值的和来代表该卷积层的兴奋程度(其实这么设定也很好理解,假设我们处理的是灰度图像,通过0代表白色,1代表黑色,矩阵值越大代表黑色越多,图片的内容越丰富)。那么究竟什么样的输入可以使得这个卷积层更加兴奋呢?我们可以通过梯度上升法来求解这样一个式子
x
∗
=
a
r
g
m
a
x
x
a
k
x^{*}=argmax_{x}a^{k}
x∗=argmaxxak,进而得到答案。
答案是这样的。图片展示了部分filter的结果,可以看到,不同的filter,关注的是图像不同的纹理结构,如第一排第一个filter,关注的是点状的纹理。
同样的操作,我们再来看看什么的图像会使得最终的输出层更加兴奋。换句话说,在CNN眼中,各个数字的最初样子是什么呢?(人类眼中数字1最初的样子肯定也是数字1)从下图可以看出,不同的数字在CNN眼中是一个完全无法区别的混乱图像(有点像电视信号)。这告诉我们,CNN眼中的世界其实是和我们不一样的。