卷积神经网络（CNN）基础

最新推荐文章于 2024-03-12 16:23:42 发布

hello_JeremyWang

最新推荐文章于 2024-03-12 16:23:42 发布

阅读量506

点赞数 2

分类专栏：深度学习理论知识

本文链接：https://blog.csdn.net/hello_JeremyWang/article/details/120942061

版权

cnn 计算机视觉深度学习神经网络图像处理

深度学习理论知识专栏收录该内容

9 篇文章 0 订阅

订阅专栏

1. CNN的两大特点

李宏毅老师在课程的第一张PPT就提出了这样一个问题：“我们可以通过考虑图片的性质来简化我们的网络呢？”。对于图像处理而言，这是一个十分有价值的思考题。因为我们通常面对的图像数据都是一个很大维度的矩阵，如果我们简单地采用全连接神经网络去处理这种数据，会导致参数过大，训练过程十分繁琐。为了解决这种问题，CNN应运而生。
在这里插入图片描述
在介绍CNN究竟是怎么利用图像特点来训练之前，我们首先给出CNN的两大特征，之后，会详细阐明这两大特征。

提取图像的突出特征去学习，而不是学习整个图片
在保留图片特征的情况下减小图像的大小

这两大特征对应了CNN的两个著名的操作：卷积和池化。

1.1 卷积

卷积的意义在于发现图像的突出特征。以下面这张图为例，如果我们的任务是分别鸟和人的图像，那我们完全没必要去学习整张图片，我们只需要去学习鸟的嘴部这一突出特征即可了（显然人没有这么尖的嘴部）。
在这里插入图片描述
了解完卷积的意义后，我们来看一下卷积具体是怎么操作的。我们来看一个动图（其实卷积就像是一个刷子，把原图像的矩阵从左到右从上到下刷了一遍，得到了一个新的图像矩阵）

而每次是怎么从原图像矩阵得到新图像矩阵对应位置的值呢？我们从下面这幅图可以看出，我们只需将原图像矩阵的值和卷积核对应位置的值相乘再相加，即可得到新图像矩阵对应位置的值了。之后按照上面动图的方式不断移动卷积核，即可得到新的图像矩阵。
在这里插入图片描述
了解了卷积的具体操作后，接下来的问题就是：卷积操作是怎么提取图像特征的呢？大家可以移步到大佬的这篇文章卷积核与特征提取
，文章中详细讲解了卷积是怎么提取图像特征的，我在这里就不班门弄斧了。

1.2 池化

如下图一样，我们在生活中经常做这样的操作，即把图片缩小，且通常并不会影响图片的特征。那CNN会做这样的操作吗？答案是会的，即池化操作。
在这里插入图片描述
池化通常有最大池化和平均池化，其中最大池化的使用更加常见。池化的具体操作可以从下图中看出（下图中的池化都是选取的22的池化层）：平均池化即将22中的四个值取平均得到池化后的值；最大池化即将2*2的四个值的最大值作为池化后的值。
在这里插入图片描述
池化的意义可以理解为（我们以最大池化为例）：提取相应矩阵里面的最大特征，因为通常情况下，一片小区域内的最大值就可以代表这一小片区域的特征。

2. CNN 完整流程

在介绍完CNN的两大操作，卷积和池化，之后，我们就可以给出完整的CNN流程了。我们在完成卷积和池化后，会把相应的矩阵“拉直”成一条长的向量，之后再做一个全连接的操作，得到最后的输出。
在这里插入图片描述

3. CNN眼中的图像

在我们眼中，数字1的图像呈现的就是数字1，可是对于CNN而言呢？他眼中的数字1是什么样子的呢？李宏毅老师在他的课程中给出了相应的答案。
对于下图中的第二个卷积层，他的输出是50个1111的矩阵，我们设定1111矩阵的所有值的和来代表该卷积层的兴奋程度（其实这么设定也很好理解，假设我们处理的是灰度图像，通过0代表白色，1代表黑色，矩阵值越大代表黑色越多，图片的内容越丰富）。那么究竟什么样的输入可以使得这个卷积层更加兴奋呢？我们可以通过梯度上升法来求解这样一个式子 $x^{*}=argmax_{x}a^{k}$ ，进而得到答案。
在这里插入图片描述
答案是这样的。图片展示了部分filter的结果，可以看到，不同的filter，关注的是图像不同的纹理结构，如第一排第一个filter，关注的是点状的纹理。

同样的操作，我们再来看看什么的图像会使得最终的输出层更加兴奋。换句话说，在CNN眼中，各个数字的最初样子是什么呢？（人类眼中数字1最初的样子肯定也是数字1）从下图可以看出，不同的数字在CNN眼中是一个完全无法区别的混乱图像（有点像电视信号）。这告诉我们，CNN眼中的世界其实是和我们不一样的。
在这里插入图片描述

hello_JeremyWang

关注

2
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
卷积神经网络（CNN）基础

1. CNN的两大特点李宏毅老师在课程的第一张PPT就提出了这样一个问题：“我们可以通过考虑图片的性质来简化我们的网络呢？”。对于图像处理而言，这是一个十分有价值的思考题。因为我们通常面对的图像数据都是一个很大维度的矩阵，如果我们简单地采用全连接神经网络去处理这种数据，会导致参数过大，训练过程十分繁琐。为了解决这种问题，CNN应运而生。在介绍CNN究竟是怎么利用图像特点来训练之前，我们首先给出CNN的两大特征，之后，会详细阐明这两大特征。提取图像的突出特征去学习，而不是学习整个图片在保留图片特征
复制链接

扫一扫

专栏目录