深度学习笔记（八）神经网络反向传播的梯度下降算法

最新推荐文章于 2023-03-07 16:00:22 发布

Mr.zwX

最新推荐文章于 2023-03-07 16:00:22 发布

阅读量811

点赞数 1

分类专栏：【深度学习/神经网络】Deep Learning

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_16763983/article/details/111396643

版权

【深度学习/神经网络】Deep Learning 专栏收录该内容

84 篇文章 46 订阅

订阅专栏

按照吴恩达老师的话讲，反向传播的数学推导过程实际上是他看过的最复杂的数学之一，涉及线性代数矩阵导数链式法则等等，如果你微积分专家，你可以尝试从头进行数学推导，这是机器学习领域最难的推导之一。不管怎样，如果能实现这些方程，相信能让你有足够的直觉来调整神经网络并使其工作。

一、前向传播公式的回顾

$Z^{[1]}=W^{[1]}X+b^{[1]}\\A^{[1]}=\sigma(Z^{[1]})\\Z^{[2]}=W^{[2]}A^{[1]}+b^{[2]}\\A^{[2]}=\sigma(Z^{[2]})$

二、反向传播的梯度下降算法

$dz^{[2]}=A^{[2]}-y$

$dw^{[2]}=\frac{1}{m} dz^{[2]} {A^{[1]}}^T$

$db^{[2]}=\frac{1}{m} np.sum(dz^{[2]}, axis=1, keepdims=True)$

$dz^{[1]}={w^{[2]}}^Tdz^{[2]}*g^{[1]'}(z^{[1]})$

$dw^{[1]}=\frac{1}{m} dz^{[1]}X^T$

$db^{[1]}=\frac{1}{m} np.sum(dz^{[1]}, axis=1, keepdims=True)$

直观理解反向传播

在逻辑回归中，求导的核心是链式法则，很容易得到每一个参数的导数值。
$da=-\frac{y}{a}+\frac{1-y}{1-a}$

$d z = a - y$

$d w = x d z$

$d b = d z$

在这里插入图片描述
在一个隐藏层的神经网络中，其实是重复了两次逻辑回归，那么应该如何求得梯度？
下图中紫色框为6个核心公式，红色框为 $dz^{[1]}$ 的维度检查。

事实上，训练的数据同样是多个样本（将向量以列堆积，在公式中的体现是小写变量名改大写），所以总结一下反向传播的计算公式。
在这里插入图片描述

关注

1
点赞
踩
4

收藏

觉得还不错? 一键收藏
打赏
2
评论
深度学习笔记（八）神经网络反向传播的梯度下降算法

按照吴恩达老师的话讲，反向传播的数学推导过程实际上是他看过的最复杂的数学之一，涉及线性代数矩阵导数链式法则等等，如果你微积分专家，你可以尝试从头进行数学推导，这是机器学习领域最难的推导之一。不管怎样，如果能实现这些方程，相信能让你有足够的直觉来调整神经网络并使其工作。一、前向传播公式的回顾Z[1]=W[1]X+b[1]A[1]=σ(Z[1])Z[2]=W[2]A[1]+b[2]A[2]=σ(Z[2])Z^{[1]}=W^{[1]}X+b^{[1]}\\A^{[1]}=\sigma(Z^{[1].
复制链接

扫一扫

专栏目录

评论 2

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

Mr.zwX 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。