CNN卷积神经网络中的stride、padding、channel以及特征图尺寸的计算

最新推荐文章于 2025-03-15 15:31:06 发布

算了没办法

最新推荐文章于 2025-03-15 15:31:06 发布

阅读量2.2w

点赞数 57

文章标签：深度学习

本文链接：https://blog.csdn.net/m0_54487331/article/details/112846015

版权

1. stride步幅

stride：卷积时的采样间隔

设置步幅的目的是希望减小输入参数的数目，减少计算量。stride参数的值就是缩小的倍数，比如步幅为2，就对输入的特征图做2倍下采样，注意步幅并不代表输出是输入的 $\frac{1}{stride}$

padding：在输入特征图的每一边添加一定数目的行列，使得输出和输入的特征图的尺寸相同。

为什么要设置padding：

在tensorflow中：
padding = 'same'表示进行填充，填充的值由算法内部根据卷积核大小计算，目的是让输出尺寸和输入相等。
padding = 'valid'表示不进行填充，即是 padding=0，只使用有效的窗口位置，这是默认的选项。

$\frac{size\_filter - 1}{2}$

这就是为什么卷积核尺寸通常选择奇数的原因

还要注意padding='same'目的是让输出尺寸和输入尺寸相等，但前提是步幅=1，步幅若不是1，那么输出尺寸跟输入尺寸肯定是不一样

在只有一个通道的情况下，“卷积核”就相当于“filter”，这两个概念是可以互换的。但在一般情况下，它们是两个完全不同的概念。每个“filter”实际上恰好是“卷积核”的一个集合，在当前层，每个通道都对应一个卷积核，且这个卷积核是独一无二的。

卷积过程中，输入层有多少个通道，filter就有多少个通道。

即：某一层filter的通道数 = 上一层特征图的通道数。

一般的图像都是三通道的，所以卷积核也应该为三个通道。比如对于32x32x3的图像，使用一个5x5x3的卷积核，最终会得到一个28x28x1的特征图。

但是filter的数量任意的，filter的数量决定了卷积后特征图的数量。

即：某一层输出特征图的通道数 = 当前层filter的个数

例：一个尺寸 a*a 的特征图，经过 b*b 的卷积层，步幅（stride）=c，填充（padding）=d，请计算出输出的特征图尺寸？

输出特征图尺寸 $=\frac{a - b + 2d}{c} + 1$

只要记住这个公式，就可以计算所有输出特征图的尺寸了。

例：输入4*4，卷积核3*3，stride = 1，padding = 0
              
              输出尺寸 = (4-3+0)/1 + 1 = 2

在这里插入图片描述

例：输入5*5，卷积核3*3，stride = 1，padding = 1
              
              输出尺寸 = (5-3+2)/1 + 1 = 5

在这里插入图片描述

例：输入5*5，卷积核3*3，stride = 2，padding = 0
              
              输出尺寸 = (5-3+0)/2 + 1 = 2

在这里插入图片描述

例：输入6*6，卷积核3*3，stride = 2，padding = 1
              
              输出尺寸 = int(6-3+2)/2 + 1 = 3
注意：这里的padding有一列是没有参与卷积的，因为stride为2没有办法采样到这一列

在这里插入图片描述

总结：
卷积过程中，有时需要通过padding来避免信息损失，有时也要通过设置stride来压缩一部分信息，或者使输出的尺寸小于输入的尺寸。