梅科尔工作室-深度学习第五讲 CNN-卷积神经网络

本文链接：https://blog.csdn.net/ayaxx1314/article/details/126561444

前言

本文记录梅科尔工作室深度学习培训的第五讲CNN算法的学习笔记，感谢泓利哥的讲解！

参考文章链接：CNN笔记：通俗理解卷积神经网络_v_JULY_v的博客-CSDN博客_cnn卷积神经网络

1.计算机视觉

计算机视觉的应用领域如下图所示

1.1. 计算机视觉分类

(a) lmage Classification:

图像分类，用于识别图像中物体的类别(如: bottle、cup、cube)

(b) Object Localization:
目标检测，用于检测图像中每个物体的类别，并准确标出它们的位置

(d) Instance Segmentation:
实例分割，值得注意的是。(b)中的目标检测任务只需要标注出物体位置，而(d)中的实例分割任务不仅要标注出物体位置，还需要标注出物体的外形轮廓

2. CNN

CNN的两大特点：

能够有效的将大数据量的图片降维成小数据量
能够有效的保留图片特征，符合图片处理的原则

CNN解决的两大问题：

图像需要处理的数据量太大，导致成本很高，效率很低
图像在数字化的过程中很难保留原有的特征，导致图像处理的准确率不高

CNN层级结构如图所示

最左边是数据输入层，对数据做一些处理，比如去均值（把输入数据各个维度都中心化为0，避免数据过多偏差，影响训练效果）、归一化（把所有的数据都归一到同样的范围）、PCA/白化等等。CNN只对训练集做“去均值”这一步。

CONV：卷积计算层，线性乘积求和。
RELU：激励层，ReLU是激活函数的一种。
POOL：池化层，简言之，即取区域平均或最大。

FC：全连接层

3. 卷积层

3.1. 什么是卷积

对图像（不同的数据窗口数据）和滤波矩阵（一组固定的权重：因为每个神经元的多个权重固定，所以又可以看做一个恒定的滤波器filter）做内积（逐个元素相乘再求和）的操作就是所谓的『卷积』操作，也是卷积神经网络的名字来源。

非严格意义上来讲，下图中红框框起来的部分便可以理解为一个滤波器，即带着一组固定权重的神经元。多个滤波器叠加便成了卷积层。

比如下图中，图中左边部分是原始输入数据，图中中间部分是滤波器filter，图中右边是输出的新的二维数据。（对应相乘再相加）

中间滤波器filter与数据窗口做内积，其具体计算过程则是：4*0 + 0*0 + 0*0 + 0*0 + 0*1 + 0*1 + 0*0 + 0*1 + -4*2 = -8

3.2. 动态卷积操作

在CNN中，滤波器filter（带着一组固定权重的神经元）对局部输入数据进行卷积计算。每计算完一个数据窗口内的局部数据后，数据窗口不断平移滑动，直到计算完所有数据。这个过程中，有这么几个参数：
　　a. 深度depth：神经元个数，决定输出的depth厚度。同时代表滤波器个数。
　　b. 步长stride：决定滑动多少步可以到边缘。

　　c. 填充值zero-padding：在外围边缘补充若干圈0，避免边缘值浪费

动态演示如下：