（四）卷积神经网络 -- 2 填充和步幅

最新推荐文章于 2023-12-19 17:04:37 发布

Fiona-Dong

最新推荐文章于 2023-12-19 17:04:37 发布

阅读量2.6k

点赞数 1

分类专栏：动手学深度学习-TF2.0（读书笔记）

原文链接：https://trickygo.github.io/Dive-into-DL-TensorFlow2.0/#/chapter05_CNN/5.2_padding-and-strides?id=_522-stride

版权

动手学深度学习-TF2.0（读书笔记）专栏收录该内容

45 篇文章 13 订阅

订阅专栏

2. 填充和步幅

在1.1小节的示例中，使用高和宽为3的输入与高和宽为2的卷积核得到高和宽为2的输出。

一般来说，假设输入形状是 $n_h\times n_w$ ，卷积核窗口形状是 $k_h\times k_w$ ，那么有输出形状为：

$(n_h-k_h+1) \times (n_w-k_w+1)$

由此可见，卷积层的输出形状由输入形状和卷积核窗口形状决定。

本节将介绍卷积层的两个超参数：填充（padding）和步幅（stride），可以对给定形状的输入和卷积核改变输出形状。

2.1 padding

2.1.1 概念

填充（padding）是指在输入高和宽的两侧填充元素（通常是0元素）。

如下图所示，在原输入高和宽的两侧分别添加了值为0的元素，使得输入高和宽从3变成了5，从而使得输出高和宽由2增加到4。

图中的阴影部分，为第一个输出元素及其计算所使用的输入和核数组元素：
$0\times0+0\times1+0\times2+0\times3=0$

一般来说，若在高的两侧一共填充 $p_h$ 行，在宽的两侧一共填充 $p_w$ 列，那么有输出形状为：

$(n_h-k_h+p_h+1)\times(n_w-k_w+p_w+1),$

即，输出的高和宽会分别增加 $p_h$ 和 $p_w$ 。

在很多情况下，会设置 $p_h=k_h-1$ 和 $p_w=k_w-1$ 来使输入和输出具有相同的高和宽，从而方便在构造网络时推测每个层的输出形状。

若 $k_h$ 为奇数，会在高的两侧分别填充 $p_h/2$ 行；
若 $k_h$ 为偶数，一种可能是在输入的顶端一侧填充 $\lceil p_h/2\rceil$ 行（上入整数），而在底端一侧填充 $\lfloor p_h/2\rfloor$ 行（下舍整数）。
在宽的两侧填充同理。

卷积神经网络经常使用奇数高宽的卷积核，如1、3、5和7，因此两端上的填充个数相等。

2.1.2 代码示例

import tensorflow as tf
print(tf.__version__)

2.0.0

对任意的二维数组X，设它的第i行第j列的元素为X[i,j]。
当两端上的填充个数相等，并使输入和输出具有相同的高和宽时，可知输出Y[i,j]是由输入以X[i,j]为中心的窗口同卷积核进行互相关计算得到的。

示例：创建一个高和宽为3的二维卷积层，设输入高和宽两侧的填充数分别为1，给定一个高和宽为8的输入，发现输出的高和宽也是8。

def comp_conv2d(conv2d, X):
    
    # shape: (8,8) to (1,8,8,8,1)
    X = tf.reshape(X, shape=(1,)+X.shape+(1,))
    Y = conv2d(X)
    
    # shape: (1,8,8,8,1) to (8,8) 
    return tf.reshape(Y, shape=Y.shape[1:3])

X = tf.random.uniform(shape=(8,8))
conv2d = tf.keras.layers.Conv2D(filters=1, kernel_size=3, padding='same')

comp_conv2d(conv2d,X).shape

输出：

TensorShape([8, 8])

2.2 stride

2.2.1 概念

在1.1小节介绍的二维互相关运算中，卷积窗口从输入数组的最左上方开始，按从左往右、从上往下的顺序，依次在输入数组上滑动。这里将每次滑动的行数和列数称为步幅（stride）。

在已有示例中，涉及的高和宽两个方向上的步幅均为1，也可以使用更大步幅。
在高上步幅为3、在宽上步幅为2的二维互相关运算，如下图所示：

由此可见，输出第一列第二个元素时，卷积窗口向下滑动了3行；输出第一行第二个元素时，卷积窗口向右滑动了2列。
当卷积窗口在输入上再向右滑动2列时，由于输入元素无法填满窗口，无结果输出。

图中的阴影部分，为输出元素及其计算所使用的输入和核数组元素： $0\times0+0\times1+1\times2+2\times3=8\\ 0\times0+6\times1+0\times2+0\times3=6$

一般来说，当高上步幅为 $s_h$ ，宽上步幅为 $s_w$ 时，输出形状为（均取下舍整数）：

$\lfloor(n_h-k_h+p_h+s_h)/s_h\rfloor \times \lfloor(n_w-k_w+p_w+s_w)/s_w\rfloor$

若设 $p_h=k_h-1$ 和 $p_w=k_w-1$ ，那么输出形状将简化为：
$\lfloor(n_h+s_h-1)/s_h\rfloor \times \lfloor(n_w+s_w-1)/s_w\rfloor$

更进一步，若输入的高和宽能分别被高和宽上的步幅整除，那么输出形状将是：
$(n_h/s_h) \times (n_w/s_w)$

2.2.2 代码示例

示例1

令高和宽上的步幅均为2，从而使输入的高和宽减半。

conv2d = tf.keras.layers.Conv2D(filters=1, kernel_size=3, padding='same', strides=2)
comp_conv2d(conv2d, X).shape

输出：

TensorShape([4, 4])

示例2

令padding=‘valid’，高上的步幅为3，宽上的步幅为4。

conv2d = tf.keras.layers.Conv2D(filters=1, kernel_size=(3,5), padding='valid', strides=(3,4))
comp_conv2d(conv2d, X).shape

输出：

TensorShape([2, 1])

记：padding=‘same’ vs padding=‘valid’ ？

参考

《动手学深度学习》(TF2.0版)

Fiona-Dong

关注

1
点赞
踩
7

收藏

觉得还不错? 一键收藏
3
评论
（四）卷积神经网络 -- 2 填充和步幅

2. 填充和步幅在1.1小节的示例中，使用高和宽为3的输入与高和宽为2的卷积核得到高和宽为2的输出。一般来说，假设输入形状是nh×nwn_h\times n_wnh×nw，卷积核窗口形状是kh×kwk_h\times k_wkh×kw，那么有输出形状为：(nh−kh+1)×(nw−kw+1)(n_h-k_h+1) \times (n_w-k_w+1)(nh−kh+1)×(nw−kw+1)由此可见，卷积层的输出形状由输入形状和卷积核窗口形状决定。本节将介绍卷积层的两个超参数：填充（p
复制链接

扫一扫

专栏目录