卷积神经网络(CNN)基础

1. CNN的两大特点

李宏毅老师在课程的第一张PPT就提出了这样一个问题:“我们可以通过考虑图片的性质来简化我们的网络呢?”。对于图像处理而言,这是一个十分有价值的思考题。因为我们通常面对的图像数据都是一个很大维度的矩阵,如果我们简单地采用全连接神经网络去处理这种数据,会导致参数过大,训练过程十分繁琐。为了解决这种问题,CNN应运而生。
在这里插入图片描述
在介绍CNN究竟是怎么利用图像特点来训练之前,我们首先给出CNN的两大特征,之后,会详细阐明这两大特征。

  1. 提取图像的突出特征去学习,而不是学习整个图片
  2. 在保留图片特征的情况下减小图像的大小

这两大特征对应了CNN的两个著名的操作:卷积和池化。

1.1 卷积

卷积的意义在于发现图像的突出特征。以下面这张图为例,如果我们的任务是分别鸟和人的图像,那我们完全没必要去学习整张图片,我们只需要去学习鸟的嘴部这一突出特征即可了(显然人没有这么尖的嘴部)。
在这里插入图片描述
了解完卷积的意义后,我们来看一下卷积具体是怎么操作的。我们来看一个动图(其实卷积就像是一个刷子,把原图像的矩阵从左到右从上到下刷了一遍,得到了一个新的图像矩阵)
在这里插入图片描述

而每次是怎么从原图像矩阵得到新图像矩阵对应位置的值呢?我们从下面这幅图可以看出,我们只需将原图像矩阵的值和卷积核对应位置的值相乘再相加,即可得到新图像矩阵对应位置的值了。之后按照上面动图的方式不断移动卷积核,即可得到新的图像矩阵。
在这里插入图片描述
了解了卷积的具体操作后,接下来的问题就是:卷积操作是怎么提取图像特征的呢?大家可以移步到大佬的这篇文章 卷积核与特征提取
,文章中详细讲解了卷积是怎么提取图像特征的,我在这里就不班门弄斧了。

1.2 池化

如下图一样,我们在生活中经常做这样的操作,即把图片缩小,且通常并不会影响图片的特征。那CNN会做这样的操作吗?答案是会的,即池化操作。
在这里插入图片描述
池化通常有最大池化和平均池化,其中最大池化的使用更加常见。池化的具体操作可以从下图中看出(下图中的池化都是选取的22的池化层):平均池化即将22中的四个值取平均得到池化后的值;最大池化即将2*2的四个值的最大值作为池化后的值。
在这里插入图片描述
池化的意义可以理解为(我们以最大池化为例):提取相应矩阵里面的最大特征,因为通常情况下,一片小区域内的最大值就可以代表这一小片区域的特征。

2. CNN 完整流程

在介绍完CNN的两大操作,卷积和池化,之后,我们就可以给出完整的CNN流程了。我们在完成卷积和池化后,会把相应的矩阵“拉直”成一条长的向量,之后再做一个全连接的操作,得到最后的输出。
在这里插入图片描述

3. CNN眼中的图像

在我们眼中,数字1的图像呈现的就是数字1,可是对于CNN而言呢?他眼中的数字1是什么样子的呢?李宏毅老师在他的课程中给出了相应的答案。
对于下图中的第二个卷积层,他的输出是50个1111的矩阵,我们设定1111矩阵的所有值的和来代表该卷积层的兴奋程度(其实这么设定也很好理解,假设我们处理的是灰度图像,通过0代表白色,1代表黑色,矩阵值越大代表黑色越多,图片的内容越丰富)。那么究竟什么样的输入可以使得这个卷积层更加兴奋呢?我们可以通过梯度上升法来求解这样一个式子 x ∗ = a r g m a x x a k x^{*}=argmax_{x}a^{k} x=argmaxxak,进而得到答案。
在这里插入图片描述
答案是这样的。图片展示了部分filter的结果,可以看到,不同的filter,关注的是图像不同的纹理结构,如第一排第一个filter,关注的是点状的纹理。
在这里插入图片描述
同样的操作,我们再来看看什么的图像会使得最终的输出层更加兴奋。换句话说,在CNN眼中,各个数字的最初样子是什么呢?(人类眼中数字1最初的样子肯定也是数字1)从下图可以看出,不同的数字在CNN眼中是一个完全无法区别的混乱图像(有点像电视信号)。这告诉我们,CNN眼中的世界其实是和我们不一样的。
在这里插入图片描述

  • 2
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值