深度学习——卷积神经网络CNN

最新推荐文章于 2023-04-14 23:31:27 发布

不愿透露姓名的小段

最新推荐文章于 2023-04-14 23:31:27 发布

阅读量258

点赞数

文章标签：神经网络深度学习卷积

本文链接：https://blog.csdn.net/qq_46132949/article/details/108046314

版权

这两天看了不少讲卷积神经网络的文章和视频，由于我本人才疏学浅，在学习过程中基本上是一头雾水，导致的结果就是不过幸好，在快要绝望的时候，我在知乎上发现了一篇宝藏文章卷积神经网络CNN完全指南终极版这篇文章非常通俗易懂，本着“说人话”的原则讲解了卷积神经网络，虽然有一些小错误，但是整体上非常适合新手小白，

我的这篇博客只是进行了一些补充，理解以下内容的前提是已经读懂了以上推荐的文章。

卷积层

首先，大多数输入图像都有3个RGB通道，我们可以把不同通道看成观察图片的不同视角，不同的视角或许会忽略某些特征，但也一定会强调某些特征。在只有一个通道的时候，“卷积核”就相当于“filter”，当有多个通道时，每个通道都会对应一个卷积核，而每个“filter”是该区域卷积核的一个集合。
其次，每个filter有且仅有一个输出通道，所以要由卷积核首先在输入数据上滑动，对应不同通道输出不同的处理结果。如图所示：
其中一些卷积核的权重可能更高，它对应的通道数据也会被更加重视（例如：如果红色通道·的卷积核权重更高，filter就会更关注这个通道的特征差异）。
卷积核处理完数据后，形成了三个通道对应的处理结果，接着filter再把它们加在一起形成一个总的通道，如图：

最后，每个filter输出后都要加一个偏置项,如图：
对于多个filter的情况：每个filter通过自己的卷积核集处理数据，并加上偏置项，形成一个最终的单通道输出，并把这些单通道输出组合成一个总输出，它的通道数就等于filter数。这个总输出经过非线性处理后，继续作为输入进入下一个卷积层，然后重复上述过程。

零填充和步幅

正如上文中的gif所展示的，通过卷积操作，我们把5X5的特征矩阵转换成了3X3的特征矩阵，这使得输入数据的边缘被“修建”掉了，针对这个问题，我们提出了零填充这一解决方案。它会使用额外的“假”像素填充边缘，这样使得被修剪的数据是“假”数据，从而使输出和输入大小相同。如图：
但是在有些时候，我们会需要一个尺寸小于输入的输出，例如，当通道数量增加时，我们需要降低特征空间维度。实现目标有两种方法，一种是池化层，一种是步幅。滑动卷积核时，我们会先从左上角开始，每次往左滑动或者往下滑动，我们将每次滑动的行数或列数成为步幅（一般情况下，滑动的行数和列数是相等的）步幅越大，输出尺寸越小。

感受野

感受野是卷积神经网络每一层输出的特征图（feature map）上的像素点在原始图像上的映射区域大小。计算感受野大小时，忽略了图像边缘的影响，即不考虑零填充的大小，先计算在前一层上的感受野，然后逐渐传递到第一层。

数据计算

输入数据的尺寸：W1xH1xD1
输出数据的尺寸：W2xH2xD2
W2=(W1-F+2P)/S+1
H2=(H1-F+2P)/S+1
D2=K
其中K表示filter数量，F表示filter的尺寸，S表示步幅，P表示零填充数量。
注意：由于参数共享，每个filter有FFD1个权重，卷积层共有FFD1*K个权重和K个偏执