【Python实现卷积神经网络】：反向传播推导卷积层对输入数据的求导

最新推荐文章于 2022-11-11 21:12:01 发布

Jack_Kuo

最新推荐文章于 2022-11-11 21:12:01 发布

阅读量1.9k

点赞数

分类专栏：深度学习

本文链接：https://blog.csdn.net/weixin_37251044/article/details/81978136

版权

深度学习专栏收录该内容

13 篇文章 3 订阅

订阅专栏

0.前言

　　通过之前的学习【Python实现卷积神经网络】：卷积层的正向传播与反向传播+python实现代码，我们知道卷积层的反向传播有三个梯度要求：

1.对输入数据的求导
这里写图片描述
2.对W的求导

3.对b的求导

　　这篇博客推导第一个公式：对输入数据求导。如下公式是怎么来的：
这里写图片描述

1.【对输入数据求导】计算方法一

　　我在之前的博客中举了正向传播输入数据不带pad，它的反向传播对输入数据求导的例子。

　　这里我们通过举另外一个输入数据带pad的正向卷积，然后反向传播的例子。

　　假设我们现在已经可以递推出上层的梯度误差 $δ^{l+1}$ 了；卷积层输出z，输入a和W,b的关系为：

z l = a l * W l + b

$z^l = a^{l}*W^l +b$
　　因此本层残差（

δl δ l $δ^{l}$ ）和上层残差（

δl+1 δ l + 1 $δ^{l+1}$ ）的递推关系为：

伪 码 ： δ l = \partial J ( W , b ) \partial a l = \partial J ( W , b ) \partial z l \partial z l \partial a l = δ l + 1 * W l

$伪码： δ^{l}=\frac{\partial J(W,b)}{\partial a^{l}} = \frac{\partial J(W,b)}{\partial z^{l}}\frac{\partial z^{l}}{\partial a^{l}} =\delta^{l+1} *W^{l}$

　　上边伪码是为了便于推导理解，事实上公式是：

δ l = \partial J ( W , b ) \partial a l = \partial J ( W , b ) \partial z l \partial z l \partial a l = p a d (δ l + 1) \otimes r o t 180 (W l)

$δ^{l}=\frac{\partial J(W,b)}{\partial a^{l}} = \frac{\partial J(W,b)}{\partial z^{l}}\frac{\partial z^{l}}{\partial a^{l}} =pad(\delta^{l+1}) \otimes rot180(W^{l})$

　　假设我们输入a是2x2的矩阵，且加入pad=1卷积核W是3x3的矩阵，输出z是2x2的矩阵，那么反向传播的z的梯度误差δ也是2x2的矩阵。我们列出a,W,z的矩阵表达式如下：
　　

⎛ ⎝ ⎜ ⎜ ⎜ 0000 0 a 11 a 21 0 0 a 12 a 22 0 0000 ⎞ ⎠ ⎟ ⎟ ⎟ \otimes ⎛ ⎝ ⎜ w 11 w 21 w 31 w 12 w 22 w 32 w 13 w 23 w 33 ⎞ ⎠ ⎟ = (z 11 z 21 z 12 z 22)

$\left( \begin{array}{ccc} 0&0&0&0 \\ 0&a_{11}&a_{12}&0\\ 0&a_{21}&a_{22} &0\\ 0&0&0 &0\end{array} \right) \otimes \left( \begin{array}{ccc} w_{11}&w_{12}&w_{13}\\ w_{21}&w_{22}&w_{23}\\ w_{31}&w_{32}&w_{33} \end{array} \right) = \left( \begin{array}{ccc} z_{11}&z_{12}\\ z_{21}&z_{22} \end{array} \right)$
　　反向传播的

z z $z$ 的梯度误差

δ^{l + 1}

$δ^{l+1}$ 是：
　　

(δ 11 δ 21 δ 12 δ 22)

$\left( \begin{array}{ccc} δ_{11}&δ_{12}\\ δ_{21}&δ_{22} \end{array} \right)$
　　利用卷积的定义，很容易得出：

z 11 = 0 + 0 + 0 + 0 + a 11 w 22 + a 12 w 23 + 0 + a 21 w 32 + a 22 w 33 z 12 = 0 + 0 + 0 + a 11 w 21 + a 12 w 22 + 0 + a 21 w 31 + a 22 w 32 + 0 z 21 = 0 + a 11 w 12 + a 12 w 13 + 0 + a 21 w 22 + a 22 w 23 + 0 + 0 + 0 z 22 = a 11 w 11 + a 12 w 12 + 0 + a 21 w 21 + a 22 w 22 + 0 + 0 + 0 + 0

$z_{11} = 0 + 0 + 0 + 0 + a_{11}w_{22}+ a_{12}w_{23}+ 0 + a_{21}w_{32}+ a_{22}w_{33}\\ z_{12} = 0 + 0 + 0 + a_{11}w_{21} + a_{12}w_{22}+ 0 + a_{21}w_{31} + a_{22}w_{32}+ 0\\ z_{21} = 0 + a_{11}w_{12} + a_{12}w_{13} + 0 + a_{21}w_{22}+ a_{22}w_{23} + 0 + 0 + 0\\ z_{22} = a_{11}w_{11} + a_{12}w_{12} + 0 + a_{21}w_{21} + a_{22}w_{22} + 0 + 0 + 0+ 0$

　　那么根据上面的式子，我们有：

\partial J ( W , b ) \partial a l 11 = w 22 δ 11 + w 21 δ 12 + w 12 δ 21 + w 11 δ 22 \partial J ( W , b ) \partial a l 12 = w 23 δ 11 + w 22 δ 12 + w 13 δ 21 + w 12 δ 22 \partial J ( W , b ) \partial a l 21 = w 32 δ 11 + w 31 δ 12 + w 22 δ 21 + w 21 δ 22 \partial J ( W , b ) \partial a l 22 = w 33 δ 11 + w 32 δ 12 + w 23 δ 21 + w 22 δ 22

$\frac{\partial J(W,b)}{\partial a_{11}^{l}} = w_{22}\delta_{11}+w_{21}\delta_{12}+w_{12}\delta_{21}+w_{11}\delta_{22} \\ \frac{\partial J(W,b)}{\partial a_{12}^{l}} = w_{23}\delta_{11}+w_{22}\delta_{12}+w_{13}\delta_{21}+w_{12}\delta_{22}\\ \frac{\partial J(W,b)}{\partial a_{21}^{l}} = w_{32}\delta_{11}+w_{31}\delta_{12}+w_{22}\delta_{21}+w_{21}\delta_{22}\\ \frac{\partial J(W,b)}{\partial a_{22}^{l}} = w_{33}\delta_{11}+w_{32}\delta_{12}+w_{23}\delta_{21}+w_{22}\delta_{22}$
　　最终我们可以一共得到4个式子。整理成矩阵形式后可得：

\partial J ( W , b ) \partial a l = ⎛ ⎝ ⎜ ⎜ ⎜ 0000 0 δ 11 δ 21 0 0 δ 12 δ 22 0 0000 ⎞ ⎠ ⎟ ⎟ ⎟ \otimes ⎛ ⎝ ⎜ w 33 w 23 w 13 w 32 w 22 w 12 w 31 w 21 w 11 ⎞ ⎠ ⎟

$\frac{\partial J(W,b)}{\partial a^{l}} =\left( \begin{array}{ccc} 0&0&0&0 \\ 0&\delta_{11}& \delta_{12}&0 \\ 0&\delta_{21}&\delta_{22}&0 \\ 0&0&0&0 \end{array} \right) \otimes \left( \begin{array}{ccc} w_{33}&w_{32}&w_{31}\\ w_{23}&w_{22}&w_{21}\\ w_{13}&w_{12}&w_{11} \end{array} \right)$
　　从这个例子证明了刚才的公式的正确性：
　　

δ l = \partial J ( W , b ) \partial a l = \partial J ( W , b ) \partial z l \partial z l \partial a l = p a d (δ l + 1) \otimes r o t 180 (W l)

$δ^{l}=\frac{\partial J(W,b)}{\partial a^{l}} = \frac{\partial J(W,b)}{\partial z^{l}}\frac{\partial z^{l}}{\partial a^{l}} =pad(\delta^{l+1}) \otimes rot180(W^{l})$
　

当然，这个仅仅是对输入数据求导的计算公式1，如果我们有别的计算方法能够得出同样的结果，那么我们也可以总结为对输入数据求导的计算公式2。有没有呢？当然有，稍后再表。

1.1.代码

residual_pad = np.pad(residual, ((0,), (0,), (pad_diff_H,), (pad_diff_W,)), mode='constant', constant_values=0)
for i in range(H_out):
    for j in range(W_out):
        residual_pad_masked = residual_pad[:, :, i*stride:i*stride+HH, j*stride:j*stride+WW]        
        for h in range(C):
            dx_2[:, h , i, j] = np.sum(residual_pad_masked[:,:,:,:] * rot_w[:, h, :, :], axis=(1,2,3))

注意：
这里的pad大小是由正向传播卷积核与正向传播pad共同决定的，不是1。我总结的公式是：

$p a d d i f f = k e r n e l s i z e - (1 + p a d f o w a r d)$ $pad_{diff} = kernel_{size} - (1+pad_{foward})$
至于这个公式是怎么来的，请读者将上边儿我举的例子中3X3的核变成5X5或者7X7的核，然后推导一边就总结出来了。

2.【对输入数据求导】计算方法二

　　还是上边儿的例子，这次我们换种计算方法，看最终结果和上边最终结果一样不。
　　
　　我们假设：
　　

\partial J ( W , b ) \partial a l = p o o l (d) = p o o l (⎛ ⎝ ⎜ ⎜ ⎜ d 11 d 21 d 31 d 41 d 12 d 22 d 32 d 42 d 13 d 23 d 33 d 43 d 14 d 24 d 34 d 44 ⎞ ⎠ ⎟ ⎟ ⎟) = (d 22 d 32 d 23 d 33)

$\frac{\partial J(W,b)}{\partial a^{l}} =pool(d)=pool(\left( \begin{array}{ccc} d_{11}&d_{12}&d_{13}&d_{14} \\ d_{21}&d_{22}&d_{23}&d_{24} \\ d_{31}&d_{32}&d_{33}&d_{34}\\ d_{41}&d_{42}&d_{43}&d_{44} \end{array} \right))=\left( \begin{array}{ccc} d_{22}&d_{23}\\d_{32}&d_{33} \end{array} \right)$

注：这里pool（）池化的意思，在这里表示去掉d的上下左右各pad=1的数字，剩下的部分。
　　

d 11 = ⎛ ⎝ ⎜ d 11 d 21 d 31 d 12 d 22 d 32 d 13 d 23 d 33 ⎞ ⎠ ⎟ = ⎛ ⎝ ⎜ w 11 w 21 w 31 w 12 w 22 w 32 w 13 w 23 w 33 ⎞ ⎠ ⎟ * δ 11 = ⎛ ⎝ ⎜ w 11 * δ 11 w 21 * δ 11 w 31 * δ 11 w 12 * δ 11 w 22 * δ 11 w 32 * δ 11 w 13 * δ 11 w 23 * δ 11 w 33 * δ 11 ⎞ ⎠ ⎟

$d^{11}=\left( \begin{array}{ccc} d_{11}&d_{12}&d_{13} \\ d_{21}&d_{22}&d_{23} \\ d_{31}&d_{32}&d_{33} \end{array} \right)= \left( \begin{array}{ccc} w_{11}&w_{12}&w_{13}\\ w_{21}&w_{22}&w_{23}\\ w_{31}&w_{32}&w_{33} \end{array} \right)*\delta_{11}=\left( \begin{array}{ccc} w_{11}*\delta_{11}&w_{12}*\delta_{11}&w_{13}*\delta_{11}\\ w_{21}*\delta_{11}&w_{22}*\delta_{11}&w_{23}*\delta_{11}\\ w_{31}*\delta_{11}&w_{32}*\delta_{11}&w_{33}*\delta_{11} \end{array} \right)$

d 12 = ⎛ ⎝ ⎜ d 12 d 22 d 32 d 13 d 23 d 33 d 14 d 24 d 34 ⎞ ⎠ ⎟ = ⎛ ⎝ ⎜ w 11 w 21 w 31 w 12 w 22 w 32 w 13 w 23 w 33 ⎞ ⎠ ⎟ * δ 12 = ⎛ ⎝ ⎜ w 11 * δ 12 w 21 * δ 12 w 31 * δ 12 w 12 * δ 12 w 22 * δ 12 w 32 * δ 12 w 13 * δ 12 w 23 * δ 12 w 33 * δ 12 ⎞ ⎠ ⎟

$d^{12}=\left( \begin{array}{ccc} d_{12}&d_{13}&d_{14} \\ d_{22}&d_{23}&d_{24} \\ d_{32}&d_{33}&d_{34} \end{array} \right)= \left( \begin{array}{ccc} w_{11}&w_{12}&w_{13}\\ w_{21}&w_{22}&w_{23}\\ w_{31}&w_{32}&w_{33} \end{array} \right)*\delta_{12}=\left( \begin{array}{ccc} w_{11}*\delta_{12}&w_{12}*\delta_{12}&w_{13}*\delta_{12}\\ w_{21}*\delta_{12}&w_{22}*\delta_{12}&w_{23}*\delta_{12}\\ w_{31}*\delta_{12}&w_{32}*\delta_{12}&w_{33}*\delta_{12} \end{array} \right)$

d 21 = ⎛ ⎝ ⎜ d 21 d 31 d 41 d 22 d 32 d 42 d 23 d 33 d 43 ⎞ ⎠ ⎟ = ⎛ ⎝ ⎜ w 11 w 21 w 31 w 12 w 22 w 32 w 13 w 23 w 33 ⎞ ⎠ ⎟ * δ 21 = ⎛ ⎝ ⎜ w 11 * δ 21 w 21 * δ 21 w 31 * δ 21 w 12 * δ 21 w 22 * δ 21 w 32 * δ 21 w 13 * δ 21 w 23 * δ 21 w 33 * δ 21 ⎞ ⎠ ⎟

$d^{21}=\left( \begin{array}{ccc} d_{21}&d_{22}&d_{23} \\ d_{31}&d_{32}&d_{33} \\ d_{41}&d_{42}&d_{43} \end{array} \right)= \left( \begin{array}{ccc} w_{11}&w_{12}&w_{13}\\ w_{21}&w_{22}&w_{23}\\ w_{31}&w_{32}&w_{33} \end{array} \right)*\delta_{21}=\left( \begin{array}{ccc} w_{11}*\delta_{21}&w_{12}*\delta_{21}&w_{13}*\delta_{21}\\ w_{21}*\delta_{21}&w_{22}*\delta_{21}&w_{23}*\delta_{21}\\ w_{31}*\delta_{21}&w_{32}*\delta_{21}&w_{33}*\delta_{21} \end{array} \right)$

d 22 = ⎛ ⎝ ⎜ d 22 d 32 d 42 d 23 d 33 d 43 d 24 d 34 d 44 ⎞ ⎠ ⎟ = ⎛ ⎝ ⎜ w 11 w 21 w 31 w 12 w 22 w 32 w 13 w 23 w 33 ⎞ ⎠ ⎟ * δ 22 = ⎛ ⎝ ⎜ w 11 * δ 22 w 21 * δ 22 w 31 * δ 22 w 12 * δ 22 w 22 * δ 22 w 32 * δ 22 w 13 * δ 22 w 23 * δ 22 w 33 * δ 22 ⎞ ⎠ ⎟

$d^{22}=\left( \begin{array}{ccc} d_{22}&d_{23}&d_{24} \\ d_{32}&d_{33}&d_{34} \\ d_{42}&d_{43}&d_{44} \end{array} \right)= \left( \begin{array}{ccc} w_{11}&w_{12}&w_{13}\\ w_{21}&w_{22}&w_{23}\\ w_{31}&w_{32}&w_{33} \end{array} \right)*\delta_{22}=\left( \begin{array}{ccc} w_{11}*\delta_{22}&w_{12}*\delta_{22}&w_{13}*\delta_{22}\\ w_{21}*\delta_{22}&w_{22}*\delta_{22}&w_{23}*\delta_{22}\\ w_{31}*\delta_{22}&w_{32}*\delta_{22}&w_{33}*\delta_{22} \end{array} \right)$

然后，将 $d^{11},d^{12},d^{21},d^{22}$ 中相应 $d_{i,j}$ 的位置相加，得到：

d 11 = w 11 * δ 11

$d_{11}=w_{11}*\delta_{11}$

. . .

$...$

d 22 = w 22 * δ 11 + w 21 * δ 12 + w 12 * δ 21 + w 11 * δ 22

$d_{22}=w_{22}*\delta_{11}+w_{21}*\delta_{12}+w_{12}*\delta_{21}+w_{11}*\delta_{22}$

d 23 = w 23 * δ 11 + w 22 * δ 12 + w 13 * δ 21 + w 12 * δ 22

$d_{23}=w_{23}*\delta_{11}+w_{22}*\delta_{12}+w_{13}*\delta_{21}+w_{12}*\delta_{22}$

d 32 = w 32 * δ 11 + w 31 * δ 12 + w 22 * δ 21 + w 21 * δ 22

$d_{32}=w_{32}*\delta_{11}+w_{31}*\delta_{12}+w_{22}*\delta_{21}+w_{21}*\delta_{22}$

d 23 = w 33 * δ 11 + w 32 * δ 12 + w 23 * δ 21 + w 22 * δ 22

$d_{23}=w_{33}*\delta_{11}+w_{32}*\delta_{12}+w_{23}*\delta_{21}+w_{22}*\delta_{22}$

. . .

$...$

d 44 = w 33 * δ 22

$d_{44}=w_{33}*\delta_{22}$

可以看出，我们的计算结果与第一个公式一样：

\partial J ( W , b ) \partial a l = ⎛ ⎝ ⎜ \partial J ( W , b ) \partial a l 11 \partial J ( W , b ) \partial a l 21 \partial J ( W , b ) \partial a l 12 \partial J ( W , b ) \partial a l 22 ⎞ ⎠ ⎟ = (d 22 d 32 d 23 d 33)

$\frac{\partial J(W,b)}{\partial a^{l}} =\left( \begin{array}{ccc} \frac{\partial J(W,b)}{\partial a_{11}^{l}}&\frac{\partial J(W,b)}{\partial a_{12}^{l}} \\ \frac{\partial J(W,b)}{\partial a_{21}^{l}}&\frac{\partial J(W,b)}{\partial a_{22}^{l}} \end{array} \right) = \left( \begin{array}{ccc} d_{22}&d_{23}\\d_{32}&d_{33} \end{array} \right)$

注意：计算方法二不需要rot180（w）

2.1.代码：

      for i in range(H_out):
            for j in range(W_out):
                x_pad_masked = x_pad[:, :, i * stride:i * stride + HH, j * stride:j * stride + WW]
                for k in range(F):  # compute dw
                    dw[k, :, :, :] += np.sum(x_pad_masked * (residual[:, k, i, j])[:, None, None, None], axis=0)  
                    # dw=pad（bottom_data）* top_diff_ij
                for n in range(N):  # compute dx_pad
                    dx_pad[n, :, i * stride:i * stride + HH, j * stride:j * stride + WW] += np.sum((self.w[:, :, :, :] * (residual[n, :, i,j])[:, None, None, None]), axis=0)
                    # dx = (w)* （top_diff_ij）

Jack_Kuo

关注

0
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
【Python实现卷积神经网络】：反向传播推导卷积层对输入数据的求导

0.前言　　通过之前的学习【Python实现卷积神经网络】：卷积层的正向传播与反向传播+python实现代码，我们知道卷积层的反向传播有三个梯度要求：1.对输入数据的求导 2.对W的求导 3.对b的求导　　这篇博客推导第一个公式：对输入数据求导。如下公式是怎么来的： 1.【对输入数据求导】计算方法一　　我在之前的博客中举了正向传播输入数据不带p...
复制链接

扫一扫