疫情在家闲着没事把斯坦福Andrew Ng的机器学习里面的数学公式都推导了一遍。其中我发现视频中反向传播的数学跳过了一些步骤且所用的数学符号跟其他地方不太一样。今天来分享一下视频中反向传播的数学推导。
如果你喜欢看更直观的视频推导,请移步这里:
B站: https://www.bilibili.com/video/BV1GK4y1s76c/
Youtube: https://www.youtube.com/watch?v=9OzLcgy1bjs
原视频中介绍反向传播的有这两页:
有没有一种好像看懂又好像有点迷糊的感觉?我反正是的。。于是经过仔细看了之后我把我的纠结总结成了下面5个问题:
1. 为什么 ?
2. 为什么下面一个视频内容说 ,但是却从
开始推导。这样的简化可以吗?
3. 就算2是可以的,那为什么 ?
4. 为什么 ?
5. 为什么 ?
推导之前我们先来看看一些基本定义:
: 第l层的第j个node的输出