吴恩达深度学习 —— 3.10 直观理解反向传播

最新推荐文章于 2023-11-13 09:47:09 发布

然后就去远行吧

最新推荐文章于 2023-11-13 09:47:09 发布

阅读量550

点赞数 4

分类专栏：吴恩达深度学习

本文链接：https://blog.csdn.net/qq_37388085/article/details/103287205

版权

吴恩达深度学习专栏收录该内容

61 篇文章 30 订阅

订阅专栏

$z^{[1]}=W^{[1]}x+b^{[1]}$ $a^{[1]}=\sigma(z^{[1]})$ $z^{[2]}=W^{[2]}{a^{[1]}}+b^{[2]}$ $a^{[2]}=\sigma (z^{[2]})$ $Loss(a^{[2]},y)$ 这里的损失函数使用的是逻辑回归的损失函数。 $da^{[2]}=\frac{dLoss}{da^{[2]}}=-\frac{y}{a^{[2]}}+\frac{1-y}{1-a^{[2]}}$ $\frac{da^{[2]}}{dz^{[2]}}=a^{[2]}(1-a^{[2]})$ $dz^{[2]}=\frac{dLoss}{dz^{[2]}}=\frac{dLoss}{da^{[2]}}*\frac{da^{[2]}}{dz^{[2]}}=a^{[2]}-y$ $dW^{[2]}=dz^{[2]}a^{[1].T}=(a^{[2]}-y)a^{[1].T}$ $db^{[2]}=dz^{[2]}=(a^{[2]}-y)$ 这就完成了反向传播的一半。 $\frac{dz^{(2)}}{da^{[1]}}=W^{[2].T}$ $\frac{da^{[1]}}{dz^{[1]}}=g^{'[1]}(z^{[1]})$ $dz^{[1]}=W^{[2].T}dz^{[2]}g^{'[1]}(z^{[1]})$ $dW^{[1]}=dz^{[1]}.x^{.T}$ $db^{[1]}=dz^{[1]}$ 通过推导我们得到六个关键方程，如下图所示
在这里插入图片描述
通过向量化表示，可以表示为

在向量化的形式中，假设每一次只有m个训练数据用于进行反向传播，则 $dZ^{[2]}$ 的维度为 $(1, m)$ 。设隐层a的节点个数为n个，则 $A^{[1]}$ 的维度为 $(m, n)$ ，隐层到输出层的参数 $W$ 的维度为 $(n, 1)$ 。通过 $dZ^{[2]}A^{[1]T}$ 得到的是m个训练数据反向传播之后的维度为 $(n, 1)$ 的关于 $W$ 的参数的导数。