如何理解CNN中的卷积？

最新推荐文章于 2024-08-01 07:45:00 发布

a1809032425

最新推荐文章于 2024-08-01 07:45:00 发布

阅读量904

点赞数 2

分类专栏：算法总结

原文链接：https://blog.csdn.net/cheneykl/article/details/79740810

版权

算法总结专栏收录该内容

17 篇文章 5 订阅 ¥19.90 ¥99.00

订阅专栏

超级会员免费看

本文深入探讨卷积神经网络（CNN）中的卷积概念，包括卷积核、卷积层、参数计算和权值共享。解释了卷积层如何通过滤波器提取图像特征，并通过实例展示了卷积过程。权值共享减少了模型参数，提高了CNN的效率和位移不变性。

摘要由CSDN通过智能技术生成

如何理解CNN中的卷积？

参考网址：

1、https://blog.csdn.net/cheneykl/article/details/79740810

2、https://blog.csdn.net/Gavin__Zhou/article/details/72723494

3、https://blog.csdn.net/cufewxy1/article/details/80485886

4、https://zhuanlan.zhihu.com/p/22038289?refer=intelligentunit //cs231

卷积神经网络（Convolutional Neural Network）是一个专门针对图像识别问题设计的神经网络。它模仿人类识别图像的多层过程：瞳孔摄入像素；大脑皮层某些细胞初步处理，发现形状边缘、方向；抽象判定形状（如圆形、方形）；进一步抽象判定（如判断物体是气球）。

1、什么是卷积：图像中不同数据窗口的数据和卷积核（一个滤波矩阵）作内积的操作叫做卷积。其计算过程又称为滤波（filter)，本质是提取图像不同频段的特征。

2、什么是卷积核：也称为滤波器filter，带着一组固定权重的神经元，通常是n*m二维的矩阵，n和m也是神经元的感受野。n*m 矩阵中存的是对感受野中数据处理的系数。一个卷积核的滤波可以用来提取特定的特征（例如可以提取物体轮廓、颜色深浅等）。通过卷积层从原始数据中提取出新的特征的过程又成为feature map(特征映射)。filter_size是指filter的大小，例如3*3； filter_num是指每种filter_size的filter个数，通常是通道个数

3、什么是卷积层：多个滤波器叠加便成了卷积层。

4、一个卷基层有多少个参数：一个卷积核使用一套权值以便”扫视’数据每一处时以同样的方式抽取特征，最终得到的是一种特征。在tensorflow定义conv2d时需要指定卷积核的尺寸，本人现在的理解是一个卷积层的多个卷积核使用相同的m*n, 只是权重不同。则一个卷积层的参数总共m*n*filter_num个，比全连接少了很多。

5、通道(chennel）怎么理解：通道可以理解为视角、角度。例如同样是提取边界特征的卷积核，可以按照R、G、B三种元素的角度提取边界，RGB在边界这个角度上有不同的表达；再比如需要检查一个人的机器学习能力，可以从特征工程、模型选择、参数调优等多个方面检测

6、计算例子：

解析：图中input 7*7*3中，7*7代表图像的像素/长宽，3代表R、G、B 三个颜色通道，可以看到周边有填充0；有两个卷积核Filter w0、Filter w1,每个filter对应每个通道有一组w权重；一个filter滑动到一个位置后计算三个通道的卷积，求和，加bias，得到这个filter在该位置的最终结果；每个filter的输出是各个通道的汇总；输出的个数与filter个数相同。所以最右边能得到两个不同的输出。

1的计算过程：

第一个通道和对应权重的结果：0*1+0*1+0*(-1)+0*(-1)+0*0+1*1+0*(-1)+0*(-1)+1*0 = 1

第二个通道和对应权重的结果：0*(-1)+0*0+0*(-1)+0*0+1*0+1*(-1)+0*1+0*(-1)+2*0 = -1

第三个通道和对应权重的结果：0*0+0*1+0*0+0*1+2*0+0*1+0*0+0*(-1)+0*0 = 0

偏置：1

1+（-1）+ 0 + 1 = 1

7、几个参数:

a. 深度depth：神经元个数，决定输出的depth厚度。同时代表滤波器个数。
b. 步长stride：决定滑动多少步可以到边缘。

c. 填充值zero-padding：在外围边缘补充若干圈0，方便从初始位置以步长为单位可以刚好滑倒末尾位置，通俗地讲就是为了总长能被步长整除。

　　

上面的例子中：

两个神经元，即depth=2，意味着有两个滤波器。
数据窗口每次移动两个步长取3*3的局部数据，即stride=2。（步长是步子大小，不是步数）
zero-padding=1。

8、如何理解权值共享，减少了神经网络需要训练的参数的个数？

数据窗口滑动，导致输入在变化，但中间滤波器Filter w0的权重是固定不变的，这个权重不变即所谓的CNN中的参数（权重）共享机制。再打个比方，某人环游全世界，所看到的信息在变，但采集信息的双眼不变。不同人的双眼看同一个局部信息所感受到的不同，即一千个读者有一千个哈姆雷特，所以不同的滤波器就像不同的双眼，不同的人有着不同的反馈结果。

如果我们有1000x1000像素的图像，有1百万个隐层神经元，那么他们全连接的话（每个隐层神经元都连接图像的每一个像素点），就有1000x1000x1000000=10^12个连接，也就是10^12个权值参数。然而图像的空间联系是局部的，就像人是通过一个局部的感受野去感受外界图像一样，每一个神经元都不需要对全局图像做感受，每个神经元只感受局部的图像区域，然后在更高层，将这些感受不同局部的神经元综合起来就可以得到全局的信息了。这样，我们就可以减少连接的数目，也就是减少神经网络需要训练的权值参数的个数了。如下图右：假如局部感受野是10x10，隐层每个感受野只需要和这10x10的局部图像相连接，所以1百万个隐层神经元就只有一亿个连接，即10^8个参数。比原来减少了四个0（数量级），如果我们每个神经元这100个参数是相同的呢？也就是说每个神经元用的是同一个卷积核去卷积图像。这样只有100个参数，这就是权值共享！

这样只提取了一种特征，我们需要提取不同的特征，假设我们加到100种滤波器，每种滤波器的参数不一样，表示它提出输入图像的不同特征，例如不同的边缘。这样每种滤波器去卷积图像就得到对图像的不同特征的放映，我们称之为Feature Map。所以100种卷积核就有100个Feature Map。这100个Feature Map就组成了一层神经元。100种卷积核x每种卷积核共享100个参数=100x100=10K，也就是1万个参数。见下图右：不同的颜色表达不同的滤波器。

隐层的参数个数和隐层的神经元个数无关，只和滤波器的大小和滤波器种类的多少有关。那么隐层的神经元个数怎么确定呢？它和原图像，也就是输入的大小（神经元个数）、滤波器的大小和滤波器在图像中的滑动步长都有关！例如，我的图像是1000x1000像素，而滤波器大小是10x10，假设滤波器没有重叠，也就是步长为10，这样隐层的神经元个数就是(1000x1000 )/ (10x10)=100x100个神经元了，假设步长是8，也就是卷积核会重叠两个像素，同样可以计算。这只是一种滤波器，也就是一个Feature Map的神经元个数，如果100个Feature Map就是100倍了。由此可见，图像越大，神经元个数和需要训练的权值参数个数的贫富差距就越大。