1.为什么要用反向传播
因为梯度是上百万维vectors的,要有效地计算出来。
2.Chain Rule
即高等数学中引入中间参数求微分的方法
3.反向传播
对某一笔data计算它的cost Cn ,合起来可以得到Loss
对每一个neural,利用Chain rule
Forward Pass:计算z对w的偏微分比较好算
Backward Pass:计算C对z的偏微分,用chain rule
我们需要解决的是C对z’和C对z’'的微分
Case1 最后一个layer(output layer),比较好算。
Case2 不是最后一个layer,利用后面的layer算前面的,即是反向的neural network。
李宏毅机器学习笔记Day4——反向传播
最新推荐文章于 2024-03-19 13:32:45 发布
![](https://img-home.csdnimg.cn/images/20240711042549.png)