Backpropagation算法
参考 李宏毅深度学习2020
我们采用 gradient descent 方法,需要 loss 对 各个参数 w i , b i w_i,b_i wi,bi 的偏导数,需要用到求导链式法则
这里注意的是 δ a / δ z = σ ′ ( z ) \delta a/\delta z = \sigma' (z) δa/δz=σ′(z) 是个常数,并且在 forward pass 中计算过
- 设 C n = l o s s ( y n , y ^ n ) C^n = loss(y^n,\hat{y}^n) Cn=loss(yn,y^n) 这里最后一个 δ C / δ z = δ C / δ y = l o s s ′ ( y , y ^ ) \delta C / \delta z = \delta C / \delta y =loss'(y,\hat{y}) δC/δz=δC/δy=loss′(y,y^)
- 前向运算时计算 δ z / δ w , z , σ ′ ( z ) \delta z / \delta w ,z,\sigma'(z) δz/δw,z,σ′(z),反向计算时计算 δ C / δ Z \delta C / \delta Z δC/δ