反向传播算法求导公式的推导

最新推荐文章于 2021-11-15 10:26:56 发布

做技术不可耻

最新推荐文章于 2021-11-15 10:26:56 发布

阅读量1.4k

点赞数 3

文章标签：深度学习

本文链接：https://blog.csdn.net/qq_40019838/article/details/102625411

版权

这里是对吴恩达深度学习视频中后向传播求导公式的推导，需要对视频有一定了解。
吐槽：吴恩达的符号记法真的是比西瓜书上的记法好太多了，后者还没开始推导就看晕了。

符号说明：

$n^{[l]}$ ：第 $l$ 层神经元的数目；

$W^{[l]}$ ：第 $l$ 层的权值；

$b^{[l]}$ ：第 $l$ 层的阈值；

$z^{[l]}$ ：第 $l$ 层的输入；

$a^{[l]}$ ：第 $l$ 层的输出；

$g^{[l]}$ ：第 $l$ 层的激活函数；

$\mathcal{L}(\hat y,y)$ ：损失函数。

神经网络的前向传播公式是：
$\begin{aligned} z^{[l]}&=W^{[l]}a^{[l-1]}+b^{[l]}\\ a^{[l]}&=g^{[l]}(z^{[l]}) \end{aligned}$
一个样本的情形：

假设我们已经知道了损失函数 $\mathcal{L}(\hat y,y)$ 对第 $l$ 层输出值 $a^{[l]}$ 的梯度 $d a^{[l]}$ ，也即
$a^{[l]}=\begin{pmatrix}\frac{\partial\mathcal{L}}{\partial a^{[l]}_1},\frac{\partial\mathcal{L}}{\partial a^{[l]}_2},...,\frac{\partial\mathcal{L}}{\partial a^{[l]}_{n^{[l]}}}\end{pmatrix}^T$
根据链式法则，首先对 $z^{[l]}$ 求导，再对 $W^{[l]}$ 和 $b^{[l]}$ 求导。

由于 $a^{[l]}$ 中的值和 $z^{[l]}$ 中的值是一一对应的，因此求导时也应该是对应元素求导，也即 $dz^{[l]}$ 可以写成这种形式
$dz^{[l]}=\begin{pmatrix}\frac{\partial\mathcal{L}}{\partial a^{[l]}_1}\frac{\partial a^{[l]}_1}{\partial z^{[l]}_1},\frac{\partial\mathcal{L}}{\partial a^{[l]}_2}\frac{\partial a^{[l]}_2}{\partial z^{[l]}_2},...,\frac{\partial\mathcal{L}}{\partial a^{[l]}_{n^{[l]}}}\frac{\partial a^{[l]}_{n^{[l]}}}{\partial z^{[l]}_{n^{[l]}}}\end{pmatrix}^T$
用 $g^{[l]}{'}(z^{[l]})$ 表示对 $z^{[l]}$ 逐元素求导，也即
$g^{[l]}{'}(z^{[l]})=\begin{pmatrix}\frac{\partial a^{[l]}_1}{\partial z^{[l]}_1},\frac{\partial a^{[l]}_2}{\partial z^{[l]}_2},...,\frac{\partial a^{[l]}_{n^{[l]}}}{\partial z^{[l]}_{n^{[l]}}}\end{pmatrix}^T$
那么 $dz^{[l]}$ 可以写成
$d z^{[l]}=d a^{[l]}*g^{[l]}{'}(z^{[l]})$
有了 $dz^{[l]}$ 可以对 $W^{[l]}$ 和 $b^{[l]}$ 求导。先考虑最简单的，对 $b^{[l]}$ 求导，由于 $z^{[l]}$ 中的值和 $b^{[l]}$ 中的值也是一一对应的，因此
$db^{[l]}=\begin{pmatrix}\frac{\partial\mathcal{L}}{\partial z^{[l]}_1}\frac{\partial z^{[l]}_1}{\partial b^{[l]}_1},\frac{\partial\mathcal{L}}{\partial z^{[l]}_2}\frac{\partial z^{[l]}_2}{\partial b^{[l]}_2},...,\frac{\partial\mathcal{L}}{\partial z^{[l]}_{n^{[l]}}}\frac{\partial z^{[l]}_{n^{[l]}}}{\partial b^{[l]}_{n^{[l]}}}\end{pmatrix}^T$
由于 $b^{[l]}$ 的系数为 $1$ ，因此
$db^{[l]}=dz^{[l]}$
接下来对 $W^{[l]}$ 求导，根据矩阵乘法规则， $z^{[l]}$ 的一个元素对应于矩阵 $W^{[l]}$ 的一行，因此求导时应该是
$dW^{[l]}= \begin{pmatrix} \frac{\partial\mathcal{L}}{\partial z^{[l]}_1}\frac{\partial z^{[l]}_1}{W^{[l]}_{1:}}\\ \frac{\partial\mathcal{L}}{\partial z^{[l]}_2}\frac{\partial z^{[l]}_2}{W^{[l]}_{2:}}\\ \vdots\\ \frac{\partial\mathcal{L}}{\partial z^{[l]}_{n^{[l]}}}\frac{\partial z^{[l]}_{n^{[l]}}}{W^{[l]}_{n^{[l]}:}} \end{pmatrix}$
这里 $W^{[l]}_{i:}$ 代表 $W^{[l]}$ 的第 $i$ 行，是一个行向量，由于
$z^{[l]}_i=W^{[l]}_{i:}a^{[l]}$
因此
$\frac{\partial z^{[l]}_i}{\partial W^{[l]}_{i:}}=a^{[l]T}$
最终的结果是
$dW^{[l]}=dz^{[l]}a^{[l]^T}$
最后为了实现反向传播，还需要计算损失函数对 $a^{[l-1]}$ 的导数 $da^{[l-1]}$ 。跟之前不同的是， $z^{[l]}$ 的一个元素对应于 $a^{[l-1]}$ 的每个元素，所以应该是 $z^{[l]}$ 的每个元素分别对 $a^{[l-1]}$ 求导，然后求和，也即
$da^{[l]}=\sum_{i=1}^{n^{[l]}}\frac{\partial\mathcal{L}}{\partial z^{[l]}_i}\frac{\partial z^{[l]}_i}{\partial a^{[l-1]}}$
由于有
$\frac{\partial z^{[l]}_i}{\partial a^{[l-1]}}=W^{[l]^T}_{i:}$
因此
$\begin{aligned} da^{[l]}&=\sum_{i=1}^{n^{[l]}}\frac{\partial\mathcal{L}}{\partial z^{[l]}_i}\frac{\partial z^{[l]}_i}{\partial a^{[l-1]}}\\ &=\sum_{i=1}^{n^{[l]}}W^{[l]^T}_{i:}dz^{[l]}_i\\ &=W^{[l]^T}dz^{[l]} \end{aligned}$
至此推导出了单个样本情形的所有求导公式：
$\begin{aligned} dz^{[l]}&=d a^{[l]}*g^{[l]}{'}(z^{[l]})\\ db^{[l]}&=dz^{[l]}\\ dW^{[l]}&=dz^{[l]}a^{[l]^T}\\ da^{[l]}&=W^{[l]^T}dz^{[l]} \end{aligned}$
批量的情形：

只需要对单个样本情形进行简单的推广即可。这里先给出结果，再进行解释。

假设已经有了 $dA^{[l]}$ ，那么
$dZ^{[l]}=dA^{[l]}*g^{[l]}{'}(Z^{[l]})$
这很容易理解，因为从 $Z^{[l]}$ 到 $A^{[l]}$ 仍然是经过一个逐元素函数。
$dW^{[l]}=dZ^{[l]}A^{[l-1]^T}$
在一个样本时
$dW^{[l]}=dz^{[l]}a^{[l]^T}$
现在有多个样本，那么就需要求和，也就可以写成上面那种形式。
这里跟视频中的不一样，因为损失函数中的 $\frac{1}{m}$ 已经包含在了上一层的求导中。
$db^{[l]}=\sum_{i=1}^{M}dZ^{[l]}_{:i}$
其中 $dZ^{[l]}_{:i}$ 代表矩阵 $dZ^{[l]}$ 的第 $i$ 列，这里跟 $dW^{[l]}$ 是一样的情形。
$dA^{[l-1]}=W^{[l]^T}dZ^{[l]}$
在一个样本时
$da^{[l]}=W^{[l]^T}dz^{[l]}$
现在有多个样本，那么
$\begin{aligned} dA^{[l]}&=\begin{pmatrix}da^{[l](1)},da^{[l](2)},...,da^{[l](m)}\end{pmatrix}\\ &=\begin{pmatrix}W^{[l]^T}dz^{[l](1)},W^{[l]^T}dz^{[l](2)},...,W^{[l]^T}dz^{[l](m)}\end{pmatrix}\\ &=W^{[l]^T}dZ^{[l]} \end{aligned}$
其中 $a^{[l](i)}$ 代表第 $i$ 个样本在第 $l$ 层的输出， $z^{[l](i)}$ 同理。
至此所有的公式是
$\begin{aligned} dZ^{[l]}&=dA^{[l]}*g^{[l]}{'}(Z^{[l]})\\ db^{[l]}&=\sum_{i=1}^{M}dZ^{[l]}_{:i}\\ dW^{[l]}&=dZ^{[l]}A^{[l-1]^T}\\ dA^{[l-1]}&=W^{[l]^T}dZ^{[l]} \end{aligned}$

做技术不可耻

关注

3
点赞
踩
11

收藏

觉得还不错? 一键收藏
1
评论
反向传播算法求导公式的推导

这里是对吴恩达深度学习视频中后向传播求导公式的推导，需要对视频有一定了解。符号说明：n[l]n^{[l]}n[l]：第lll层神经元的数目；W[l]W^{[l]}W[l]：第lll层的权值；b[l]b^{[l]}b[l]：第lll层的阈值；z[l]z^{[l]}z[l]：第lll层的输入；a[l]a^{[l]}a[l]：第lll层的输出；g[l]g^{[l]}g[l]：第lll层的激...
复制链接

扫一扫