CNN卷积神经网络原理讲解+图片识别应用（附源码）

最新推荐文章于 2024-06-04 19:48:40 发布

天痕坤

最新推荐文章于 2024-06-04 19:48:40 发布

阅读量10w+

收藏 3k

点赞数 442

分类专栏：机器学习文章标签： tensorflow CNN卷积神经网络

本文链接：https://blog.csdn.net/kun1280437633/article/details/80817129

版权

一、机器如何识图

先给大家出个脑筋急转弯：在白纸上画出一个大熊猫，一共需要几种颜色的画笔？——大家应该都知道，只需要一种黑色的画笔，只需要将大熊猫黑色的地方涂上黑色，一个大熊猫的图像就可以展现出来。

我们画大熊猫的方式，其实和妈妈们的十字绣很接近——在给定的格子里，绣上不同的颜色，最后就可以展现出一幅特定的“图片”。而机器识图的方式正好和绣十字绣的方式相反，现在有了一幅图片，机器通过识别图片中每个格子（像素点）上的颜色，将每个格子里的颜色都用数字类型存储，得到一张很大的数字矩阵，图片信息也就存储在这张数字矩阵中。

上图中每一个格子代表一个像素点，像素点里的数字代表颜色码，颜色码范围是[0，255]，（各式各样的颜色都是由红、绿、蓝三色组成，每个颜色都是0~255之间数字）

我们在得到的一张大数字矩阵的基础上开展卷积神经网络识别工作：
机器识图的过程：机器识别图像并不是一下子将一个复杂的图片完整识别出来，而是将一个完整的图片分割成许多个小部分，把每个小部分里具有的特征提取出来（也就是识别每个小部分），再将这些小部分具有的特征汇总到一起，就可以完成机器识别图像的过程了

二、卷积神经网络原理介绍

用CNN卷积神经网络识别图片，一般需要的步骤有：

卷积层初步提取特征
池化层提取主要特征
全连接层将各部分特征汇总
产生分类器，进行预测识别

1、卷积层工作原理

卷积层的作用：就是提取图片每个小部分里具有的特征

假定我们有一个尺寸为6*6 的图像，每一个像素点里都存储着图像的信息。我们再定义一个卷积核（相当于权重），用来从图像中提取一定的特征。卷积核与数字矩阵对应位相乘再相加，得到卷积层输出结果。

（429 = 18*1+54*0+51*1+55*0+121*1+75*0+35*1+24*0+204*1）
卷积核的取值在没有以往学习的经验下，可由函数随机生成，再逐步训练调整

当所有的像素点都至少被覆盖一次后，就可以产生一个卷积层的输出（下图的步长为1）

机器一开始并不知道要识别的部分具有哪些特征，是通过与不同的卷积核相作用得到的输出值，相互比较来判断哪一个卷积核最能表现该图片的特征——比如我们要识别图像中的某种特征（比如曲线），也就是说，这个卷积核要对这种曲线有很高的输出值，对其他形状（比如三角形）则输出较低。卷积层输出值越高，就说明匹配程度越高，越能表现该图片的特征。

卷积层具体工作过程：
比如我们设计的一个卷积核如下左，想要识别出来的曲线如下右：

现在我们用上面的卷积核，来识别这个简化版的图片——一只漫画老鼠

当机器识别到老鼠的屁股的时候，卷积核与真实区域数字矩阵作用后，输出较大：6600

而用同一个卷积核，来识别老鼠的耳朵的时候，输出则很小：0

我们就可以认为：现有的这个卷积核保存着曲线的特征，匹配识别出来了老鼠的屁股是曲线的。我们则还需要其他特征的卷积核，来匹配识别出来老鼠的其他部分。卷积层的作用其实就是通过不断的改变卷积核，来确定能初步表征图片特征的有用的卷积核是哪些，再得到与相应的卷积核相乘后的输出矩阵

2、池化层工作原理

池化层的输入就是卷积层输出的原数据与相应的卷积核相乘后的输出矩阵
池化层的目的：

为了减少训练参数的数量，降低卷积层输出的特征向量的维度
减小过拟合现象，只保留最有用的图片信息，减少噪声的传递

最常见的两种池化层的形式：

最大池化：max-pooling——选取指定区域内最大的一个数来代表整片区域
均值池化：mean-

最低0.47元/天解锁文章

天痕坤

关注

442
点赞
踩
3063

收藏

觉得还不错? 一键收藏
80
评论
CNN卷积神经网络原理讲解+图片识别应用（附源码）

一、机器如何识图先给大家出个脑筋急转弯：在白纸上画出一个大熊猫，一共需要几种颜色的画笔？——大家应该都知道，只需要一种黑色的画笔，只需要将大熊猫黑色的地方涂上黑色，一个大熊猫的图像就可以展现出来。我们画大熊猫的方式，其实和妈妈们的十字绣很接近——在给定的格子里，绣上不同的颜色，最后就可以展现出一幅特定的“图片”。而机器识图的方式正好和绣十字绣的方式相反，现在有了一幅图片，机器通过识别图片中...
复制链接

扫一扫

专栏目录