![e2462f98503be59db347e7cd4b288aec.png](https://img-blog.csdnimg.cn/img_convert/e2462f98503be59db347e7cd4b288aec.png)
一、卷积层
首先要进行说明的是,我们常说的CNN(卷积神经网络)中的“卷积”其实并不是真正意义上图像处理中常用的二维离散卷积(convolution),它的真实名字叫做“互相关”(cross-correlation)。本文将分别对互相关和二维离散卷积的计算方式进行说明。(本文还是按惯例称CNN中的互相关操作为卷积,在讲解具体计算方式的时候再加以区分)
卷积层的作用是什么呢?
卷积层就是用来提取图像的特征。因此它是识别图像最核心的部分。
那么卷积层如何提取特征呢?
我们先来了解下什么是卷积操作。图像在计算机看来就是像素点组成的矩阵,对图像(不同的数据窗口数据)和滤波矩阵(一组固定的权重:可以看做一个恒定的滤波器filter也叫作卷积核)做内积(逐个元素相乘再求和)的操作就是卷积。卷积层就是利用卷积核(也叫滤波器)来提取图像的特征。不同的卷积核可以得到不同的特征。如下图所示
![155b4e5b399241e3deddb6a983708e5c.png](https://img-blog.csdnimg.cn/img_convert/155b4e5b399241e3deddb6a983708e5c.png)
在正式介绍之前,我们先来讲一下有关的基本概念。
1)特征映射(feature map):输入图像和卷积核卷积后生成的矩阵。
2)感受野:在卷积神经网络CNN中,决定某一层输出结果中一个元素所对应的输入层的区域大小,被称作感受野receptive field。我们看这段定义非常简单,用数学的语言就是感受野是CNN中的某一层输出结果的一个元素对应输入层的一个映射。再通俗点的解释是,feature map上的一个点对应输入图上的区域。
如下图所示,左侧的矩阵为输入的图像,左侧矩阵中蓝色框表示此时的感受野,把感受野内的矩阵与中间层也就是卷积核做内积的运算,就得到了右侧的feature map中的一个值。
![bd4a0c1c514ae19a4cda86a6ac826a67.png](https://img-blog.csdnimg.cn/img_convert/bd4a0c1c514ae19a4cda86a6ac826a67.png)
当给你一张新的图时,CNN并不能准确地知道这些features到底要匹配原图的哪些部分,所以它会在原图中每一个可能的位置进行尝试。根据给定的步长stride