深度学习中反向传播算法简单推导笔记

最新推荐文章于 2023-04-21 18:14:40 发布

phython96

最新推荐文章于 2023-04-21 18:14:40 发布

阅读量746

点赞数 1

分类专栏：深度学习深度学习自学笔记文章标签：反向传播算法全连接卷积层神经网络

本文链接：https://blog.csdn.net/weixin_37517391/article/details/84656372

版权

深度学习同时被 2 个专栏收录

6 篇文章 0 订阅

订阅专栏

深度学习自学笔记

4 篇文章 2 订阅

订阅专栏

反向传播算法简单推导笔记

1.全连接神经网络

在这里插入图片描述

该结构的前向传播可以写成:

$z^{(1)} = W^{(1)}x+b^{(1)}$
$a^{(1)} = \sigma(z^{(1)})$
$z^{(2)}=W^{(2)}a^{(1)}+b^{(2)}$
$a^{(2)} = \sigma(z^{(2)})$

2.符号约定

$\delta^{(x)}_{i}$ : $\frac{\partial Loss}{\partial z_i^{(x)}}$ 标量.
$\delta^{(x)}$ :向量,由 $\delta^{(x)}_{1},\delta^{(x)}_{2}...,\delta^{(x)}_{n}$ 组成.
$\odot$ :表示按元素级别的乘法操作.
$\left[ \begin{matrix} a\\b \end{matrix} \right] \odot \left[ \begin{matrix} c\\d \end{matrix} \right] = \left[ \begin{matrix} ac\\bd \end{matrix} \right]$

$\left[ \begin{matrix} a&b\\c&d \end{matrix} \right] \odot \left[ \begin{matrix} e\\f \end{matrix} \right] = \left[ \begin{matrix} ae&be\\cf &df\end{matrix} \right]$

3.全连接反向传播公式推导

针对本博客给出来的2层,每层2个神经元的全连接神经网络模型,给出其反向传播推导过程.

现在欲求 $\frac{\partial Loss}{\partial W^{(1)}},\frac{\partial Loss}{\partial W^{(2)}},\frac{\partial Loss}{\partial b^{(1)}},\frac{\partial Loss}{\partial b^{(2)}},\delta^{(1)},\delta^{(2)}$ .

依据模型图并根据链式求导法则可以得到下面的等式:
欲求 $\delta^{(2)}$ 先考虑下面式子

$\delta^{(2)}_1=\frac{\partial Loss}{\partial a^{(2)}_1}*\frac{\partial a^{(2)}_1}{\partial z^{(2)}_1} = \frac{\partial Loss}{\partial a^{(2)}_1}*\sigma'(z^{(2)}_1)$

$\delta^{(2)}_2=\frac{\partial Loss}{\partial a^{(2)}_2}*\frac{\partial a^{(2)}_2}{\partial z^{(2)}_2} = \frac{\partial Loss}{\partial a^{(2)}_2}*\sigma'(z^{(2)}_2)$
那么
$\delta^{(2)}=\left[ \begin{matrix} \delta^{(2)}_1 \\ \\ \delta^{(2)}_2 \end{matrix} \right] = \left[ \begin{matrix} \frac{\partial Loss}{\partial a^{(2)}_1} \\ \\ \frac{\partial Loss}{\partial a^{(2)}_2} \end{matrix} \right] \odot \left[ \begin{matrix} \sigma'(z^{(2)}_1) \\ \\ \sigma'(z^{(2)}_2) \end{matrix} \right]$

欲求 $\frac{\partial Loss}{\partial W^{(2)}}$ 先考虑下面式子
$\frac{\partial Loss}{\partial w^{(2)}_{11}} = \delta^{(2)}_1*\frac{\partial z^{(2)}_1}{\partial w^{(2)}_{11}}= \delta^{(2)}_1*a^{(1)}_1$

$\frac{\partial Loss}{\partial w^{(2)}_{12}} = \delta^{(2)}_1*\frac{\partial z^{(2)}_1}{\partial w^{(2)}_{12}}= \delta^{(2)}_1*a^{(1)}_2$

$\frac{\partial Loss}{\partial w^{(2)}_{21}} = \delta^{(2)}_2*\frac{\partial z^{(2)}_2}{\partial w^{(2)}_{21}}= \delta^{(2)}_2*a^{(1)}_1$

$\frac{\partial Loss}{\partial w^{(2)}_{22}} = \delta^{(2)}_2*\frac{\partial z^{(2)}_2}{\partial w^{(2)}_{22}}= \delta^{(2)}_2*a^{(1)}_2$

那么
$\frac{\partial Loss}{\partial W^{(2)}} = \left[ \begin{matrix} \delta^{(2)}_1 \cdot a^{(1)}_1 & \delta^{(2)}_1\cdot a^{(1)}_2 \\ \\ \delta^{(2)}_2 \cdot a^{(1)}_1 & \delta^{(2)}_2 \cdot a^{(1)}_2 \end{matrix} \right] = \left[ \begin{matrix} \delta^{(2)}_1 \\ \\ \delta^{(2)}_2 \end{matrix} \right] \cdot \left[ \begin{matrix} a^{(1)}_1 & a^{(1)}_2 \end{matrix} \right] = \delta^{(2)}\cdot a^{(1)T}$

欲求 $\frac{\partial Loss}{\partial b^{(2)}}$ ,先考虑下面式子

$\frac{\partial Loss}{\partial b^{(2)}_1} = \delta^{(2)}_1*1$

$\frac{\partial Loss}{\partial b^{(2)}_2} = \delta^{(2)}_2*1$

那么
$\frac{\partial Loss}{\partial b^{(2)}} = \left[ \begin{matrix} \delta^{(2)}_1 \\ \\ \delta^{(2)}_2 \end{matrix} \right] \odot \left[ \begin{matrix} 1 \end{matrix} \right] = \delta^{(2)}$

欲求 $\delta^{(1)}$ ,先考虑下面式子

$\delta^{(1)}_1 = \delta^{(2)}_1 \cdot \frac{\partial z^{(2)}_{1}}{\partial a^{(1)}_1} \cdot \frac{\partial a_1^{(1)}}{\partial z_1^{(1)}} + \delta^{(2)}_2 \cdot \frac{\partial z^{(2)}_{2}}{\partial a^{(1)}_1} \cdot \frac{\partial a_1^{(1)}}{\partial z_1^{(1)}} = \delta^{(2)}_1 \cdot w^{(2)}_{11} \cdot \sigma'(z_1^{(1)}) + \delta^{(2)}_2 \cdot w_{21}^{(2)} \cdot \sigma'(z_1^{(1)})$

$\delta^{(1)}_2 = \delta^{(2)}_1 \cdot \frac{\partial z^{(2)}_{1}}{\partial a^{(1)}_2} \cdot \frac{\partial a_2^{(1)}}{\partial z_2^{(1)}} + \delta^{(2)}_2 \cdot \frac{\partial z^{(2)}_{2}}{\partial a^{(1)}_2} \cdot \frac{\partial a_2^{(1)}}{\partial z_2^{(1)}} = \delta^{(2)}_1 \cdot w^{(2)}_{12} \cdot \sigma'(z_2^{(1)}) + \delta^{(2)}_2 \cdot w_{22}^{(2)} \cdot \sigma'(z_2^{(1)})$

那么

$\delta^{(1)}=\left[ \begin{matrix} w_{11}^{(2)} & w_{21}^{(2)} \\ \\ w_{12}^{(2)} & w_{22}^{(2)} \end{matrix} \right] \cdot \left[ \begin{matrix} \delta^{(2)}_1 \\ \\ \delta^{(2)}_2 \end{matrix} \right] \odot \left[ \begin{matrix} \sigma'(z^{(1)}_1) \\ \\ \sigma'{(z_2^{(1)})} \end{matrix} \right]=W^{(2)T} \cdot \delta^{(2)} \odot \sigma'(z^{(1)})$

求 $\frac{\partial Loss}{\partial W^{(1)}},\frac{\partial Loss}{\partial b^{(1)}}$ 的方法与之前求 $\frac{\partial Loss}{\partial W^{(2)}},\frac{\partial Loss}{\partial b^{(2)}}$ 完全相同,这里就不赘述了

利用向量微积分简化推导过程

上面的推到方法我们专注于拆成标量用链式求导法则算,最后拼成矩阵相乘的形式,这样从数学上来说比较严谨,但是较为麻烦.

而实际上我们有一种更为简单(玄学 )的做法,那就是直接对向量运用链式求导法则,并且根据矩阵的维数来调整项目的位置和对项目进行转置.

欲求 $\delta^{(2)} = \frac{\partial Loss}{\partial z^{(2)}} = \frac{\partial Loss}{\partial a^{(2)}} \cdot \frac{\partial a^{(2)}}{\partial z^{(2)}}$

由于 $dim\{\delta^{(2)}\} = 2*1,dim\{\ \frac{\partial Loss}{\partial a^{(2)}} \} = 2*1$ ,根据矩阵乘法的法则,理论上应该有 $dim\{\ \frac{\partial a^{(2)}}{\partial z^{(2)}} \} = 1*1$ .

而实际上如果是列向量( $a^{(2)}$ )对列向量( $z^{(2)}$ )进行求导,大多都是对应元素进行求导,比如 $\frac{\partial a^{(2)}}{\partial z^{(2)}}=\left[ \begin{matrix} \sigma'(z^{(2)}_1) \\ \\ \sigma'(z^{(2)}_2) \end{matrix} \right]=\sigma'(z^{(2)})$ ,也就是说 $dim\{\frac{\partial a^{(2)}}{\partial z^{(2)}} \} = 2*1$ .

那怎么办呢, $2 * 1, 2 * 2$ 的矩阵不满足乘法规律,这样的话,使用 $\odot$ 这个操作刚好就可以,所以:
$\delta^{(2)} = \frac{\partial Loss}{\partial z^{(2)}} = \frac{\partial Loss}{\partial a^{(2)}} \cdot \frac{\partial a^{(2)}}{\partial z^{(2)}}=\frac{\partial Loss}{\partial a^{(2)}} \odot \sigma'(z^{(2)})$

看到这里,明白人一定会说:你这不扯淡吗,毫无道理.

~~没错,你来打我呀.~~

我们再看一个例子:

欲求 $\frac{\partial Loss}{\partial W^{(2)}} = (\frac{\partial Loss}{\partial a^{(2)}} \cdot \frac{\partial a^{(2)}}{\partial z^{(2)}}) \cdot \frac{\partial z^{(2)}}{\partial W^{(2)}} = \delta^{(2)} \cdot \frac{\partial z^{(2)}}{\partial W^{(2)}}$

注意到 $dim\{\frac{\partial Loss}{\partial W^{(2)}}\}=2*2,dim\{\delta^{(2)}\}=2*1$
那么理论上应该有 $dim\{\frac{\partial z^{(2)}}{\partial W^{(2)}}\} = 1*2$ .

我们根据 $z^{(2)}=W^{(2)}a^{(1)}+b^{(2)}$ ,知道 $dim\{a^{(1)}\}=2*1$ ,所以令 $\frac{\partial z^{(2)}}{\partial W^{(2)}}=a^{(1)T}$ .

于是 $\frac{\partial Loss}{\partial W^{(2)}}= \delta^{(2)} \cdot a^{(1)T}$ .

虽然很扯淡,但这样做跟前面用数学推导得到的公式是一样的.

我们再看一个例子:

$\delta^{(1)} = \frac{\partial Loss}{\partial z^{(1)}}=\frac{\partial Loss}{\partial z^{(2)}} \cdot \frac{\partial z^{(2)}}{\partial a^{(1)}} \cdot \frac{\partial a^{(1)}}{\partial z^{(1)}}$

由于 $dim\{\frac{\partial Loss}{\partial z^{(1)}}\}=n*1,dim\{\frac{\partial Loss}{\partial z^{(2)}}\}=m*1,dim\{\frac{\partial z^{(2)}}{\partial a^{(1)}}\} = ?,dim\{\frac{\partial a^{(1)}}{\partial z^{(1)}}\}=n*1$ .

再根据 $z^{(2)}=W^{(2)}a^{(1)}+b^{(2)}$ ,那么 $\frac{\partial z^{(2)}}{\partial a^{(1)}}$ 一定是有 $W^{(2)}$ 变化而来的,而 $dim\{W^{(2)}\}=m*n$ ,所以玄学一波(调整一下顺序以及转置)应该得到:
(其中 $n, m = 2$ )

$\delta^{(1)} = W^{(2)T} \cdot \delta^{(2)} \odot \sigma'(z^{(1)})$ .这与上面数学推导得到的结果是一致的.

4.卷积层反向传播

输入层为 $X$ ,卷积核为 $K$ ,输出层为 $Y$ .

那么有 $\otimes K=Y$ .

如果 $X$ 的宽度为 $x$ , $K$ 的宽度为 $k$ , $Y$ 的宽度为 $y$ .那么有 $y = x - k + 1$ 成立.

$\left[ \begin{matrix} x_{11} & x_{12} & x_{13} \\ x_{21} & x_{22} & x_{23} \\ x_{31} & x_{32} & x_{33} \end{matrix} \right] \otimes \left[ \begin{matrix} k_{11} & k_{12} \\ x_{21} & k_{22} \end{matrix} \right] = \left[ \begin{matrix} y_{11} & y_{12} \\ y_{21} & y_{22} \end{matrix} \right]$

展开之后我们可以写成:

$y_{11}=x_{11}k_{11}+x_{12}k_{12}+x_{21}k_{21}+x_{22}k_{22}$
$y_{12}=x_{12}k_{11}+x_{13}k_{12}+x_{22}k_{21}+x_{23}k_{22}$
$y_{21}=x_{21}k_{11}+x_{22}k_{12}+x_{31}k_{21}+x_{32}k_{22}$
$y_{22}=x_{22}k_{11}+x_{23}k_{12}+x_{32}k_{21}+x_{33}k_{22}$

记 $\delta_{ij}=\frac{\partial Loss}{\partial y_{ij}}=\nabla y_{ij}$

$\frac{\partial Loss}{\partial k_{11}}=\delta_{11} \cdot x_{11} + \delta_{12} \cdot x_{12}+\delta_{21} \cdot x_{21}+\delta_{22} \cdot x_{22}$
$\frac{\partial Loss}{\partial k_{12}}=\delta_{11} \cdot x_{12} + \delta_{12} \cdot x_{13}+\delta_{21} \cdot x_{22}+\delta_{22} \cdot x_{23}$
$\frac{\partial Loss}{\partial k_{21}}=\delta_{11} \cdot x_{21} + \delta_{12} \cdot x_{22}+\delta_{21} \cdot x_{31}+\delta_{22} \cdot x_{32}$
$\frac{\partial Loss}{\partial k_{22}}=\delta_{11} \cdot x_{22} + \delta_{12} \cdot x_{23}+\delta_{21} \cdot x_{32}+\delta_{22} \cdot x_{33}$

我们发现

$\left[ \begin{matrix} \nabla k_{11} &\nabla k_{12} \\ \\ \nabla k_{21} &\nabla k_{22} \end{matrix} \right] = \left[ \begin{matrix} x_{11} & x_{12} & x_{13} \\ x_{21} & x_{22} & x_{23} \\ x_{31} & x_{32} & x_{33} \end{matrix} \right] \otimes \left[ \begin{matrix} \nabla y_{11} & \nabla y_{12} \\ \\ \nabla y_{21} & \nabla y_{22} \end{matrix} \right]$

而这刚好也是一个卷积操作,可以写成

$\frac{\partial Loss}{\partial K}=\frac{\partial Loss}{\partial Y}\cdot\frac{\partial Y}{\partial K}=X \otimes \nabla Y$

我们写成 $\nabla K=X \otimes \nabla Y$

这说明了卷积层的梯度传播仍然是卷积操作.

那么对卷积核 $K$ 的梯度 $\nabla K$ 我们求出来了,下面我们省略对 $X$ 的梯度推导步骤,直接得出公式 $\nabla X= pad(\nabla Y) \otimes rot_{180}(K)$

其中 $rot_{180}$ 操作表示将矩阵旋转 $180$ 度,可以理解成先左右旋转,再上下旋转.

其中 $p a d$ 操作表示对矩阵周围进行补 $0$ 操作,为什么需要补 $0$ 呢,这是为了保证最后维数是匹配的. $\nabla X$ 的维度是 $r$ , $K$ 的唯独是 $k$ ,那么我们前向传播时候得到的 $Y$ 的维度是 $r - k + 1$ .假设 $pad(\nabla Y)$ 的维度是 $?$ ,那么必须有 $r = ? - k + 1$ ,所以 $? = r + k - 1$ ,因此 $p a d$ 操作将维度为 $r - k + 1$ 的矩阵补成维度 $r + k - 1$ .

例如这个例子中的 $pad(\nabla Y)$ 应该写成:

$\left[ \begin{matrix} 0&0&0&0 \\ 0&\nabla y_{11} & \nabla y_{12} & 0\\ 0&\nabla y_{21} & \nabla y_{22} & 0\\ 0&0&0&0 \end{matrix} \right]$

这个例子中的 $rot_{180}(K)$ 应该写成:

$\left[ \begin{matrix} w_{22} &w_{21} \\ \\ w_{12} & w_{11} \end{matrix} \right]$

5.卷积操作的实现

卷积操作其实也可以写作矩阵乘法来做.

比如下面式子可以写成矩阵相乘的形式:

即
$y_{11}=x_{11}k_{11}+x_{12}k_{12}+x_{21}k_{21}+x_{22}k_{22}$
$y_{12}=x_{12}k_{11}+x_{13}k_{12}+x_{22}k_{21}+x_{23}k_{22}$
$y_{21}=x_{21}k_{11}+x_{22}k_{12}+x_{31}k_{21}+x_{32}k_{22}$
$y_{22}=x_{22}k_{11}+x_{23}k_{12}+x_{32}k_{21}+x_{33}k_{22}$

即

$\left[\begin{matrix} y_{11}\\y_{12}\\y_{21}\\y_{22} \end{matrix}\right] = \left[\begin{matrix} x_{11}&x_{12}&x_{21}&x_{22}\\ x_{12}&x_{13}&x_{22}&x_{23}\\ x_{21}&x_{22}&x_{31}&x_{32}\\ x_{22}&x_{23}&x_{32}&x_{33} \end{matrix}\right] \cdot \left[\begin{matrix} k_{11}\\ k_{12}\\k_{21}\\k_{22} \end{matrix}\right]$

从上面的例子可以看出吗,要把卷积操作变成矩阵相乘需要把 $Y$ 矩阵和 $K$ 矩阵都展成一列向量,并且要对 $X$ 矩阵做一个操作,就是把 $X$ 按照卷积核的大小拆出一个大小为 $k^2*k^2$ 的矩阵来.

最后矩阵乘法做完以后,将 $y$ 向量 $r e s h a p e$ 成矩阵回来就好了.

phython96

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
深度学习中反向传播算法简单推导笔记

反向传播算法简单推导笔记1.全连接网络该结构的前向传播可以写成:z(1)=W(1)x+b(1)z^{(1)} = W^{(1)}x+b^{(1)}z(1)=W(1)x+b(1)a(1)=σ(z(1))a^{(1)} = \sigma(z^{(1)})a(1)=σ(z(1))z(2)=W(2)a(1)+b(2)z^{(2)}=W^{(2)}a^{(1)}+b^{(2)}z(2)=W(2)...
复制链接

扫一扫