【李宏毅深度学习】Backpropagation

最新推荐文章于 2024-05-28 14:29:23 发布

Atlas8346

最新推荐文章于 2024-05-28 14:29:23 发布

阅读量841

点赞数

文章标签：本文是李宏毅深度学习 (2015)的学习笔记，主要介绍了f神

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_25011449/article/details/80415867

版权

李宏毅深度学习_Backpropagation

本文是李宏毅深度学习 (2015)的学习笔记，主要介绍了神经网络Backpropagation算法的推导过程。本文所用到的图示均来自课堂ppt。

原视频地址：李宏毅深度学习 (2015)

Background

BP的背景

为了使用Gradient Descent对网络参数进行训练，我们就要求出Cost Function对每一层参数的梯度，由于本质上 $w^l_{ij}$ 与 $b^l_i$ 差别不大（可将 $b^l_i$ 看作 $w^l_{ij}$ 中的一项），因此我们这里仅对 $\partial C^r/ \partial w^l_{ij}$ 进行推导， $\partial C^r/ \partial b^l_{i}$ 推导类似。

链式法则

求导链式法则

这里使用求导链式法则先将这个问题拆解成两部分，然后分别对每一部分的求导进行计算。

计算链式法则中拆解的两部分

1. 计算 $\partial z^l_i/ \partial w^l_{ij}$

第一部分求导

第一部分的求导分为两种情况：

$l>1$ 。即当权值不是第一层时，导数为 $a^{l-1}_j$ 。
$l=1$ 。即权值为第一层时，导数为 $x^r_j$ 。

2. 计算 $\partial C^r/ \partial z^l_{i}$

第二部分求导1

为了描述方便将 $\partial C^r/ \partial z^l_{i}$ 描述为 $\delta ^l_i$ 。此时利用BP的思想，先求出最后一层的 $\delta ^L$ ，再找出后一层 $\delta ^{l+1}$ 与前一层 $\delta ^l$ 的关系，以此求出所有的 $\delta^l$ 。

第二部分求导2

同样根据链式求导法则可以得出

δ L n = σ' (z L n) \partial C r \partial y r n

$\delta ^L_n=\sigma '{(z^L_{n})}\frac{\partial C^r}{\partial y^r_n}$

其中 $\frac{\partial C^r}{\partial y^r_n}$ 与Cost Function的选取有关。

第二部分求导3
第二部分求导4

$z^l_{i}$ 的变化 $\Delta z^l_{i}$ 会对 $a^l_{i}$ 造成影响进而影响到下一层的 $z^{l+1}$ ，

第二部分求导6

向量化后得到

δ l = σ' (z l) \cdot (W l + 1) T δ l + 1 。

$\delta^l=\sigma '{(z^l)}\cdot (W^{l+1})^T\delta^{l+1}。$

总结

至此，我们已经完成了对 $\partial C^r/ \partial w^l_{ij}$ 的推导，并且实现了向量化。 $\partial C^r/ \partial b^l_{i}$ 推导类似。

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
【李宏毅深度学习】Backpropagation

本文是李宏毅深度学习 (2015)的学习笔记，主要介绍了神经网络Backpropagation算法的推导过程。本文所用到的图示均来自课堂ppt。原视频地址：[李宏毅深度学习 (2015)][1]
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。