向前传播:
第一层
第二层
第三层
计算代价:
反向传播:
这是一个求偏导数的线路图
我们会发现,这都是有规律的: 每一列都是一样的,也就是我们可以通过从结果J反向求偏导数,累积偏导数来反向递推计算每一层的和
也就是我们可以根据上一项的梯度(grad)来进一步求出下一项的梯度(grad)
既然我们可以求出每一层的梯度(grad) ,那么,我们自然就可以根据进一步求出的梯度(grad)
我们有了每一层的 grad() ,也就是我们可以更新参数了
总的来看,反向传播就是一条求导链,我们可以用递推来把整一条链子都求出来
然后在这条链子上,我们可以找到任意一个变量的梯度(grad),最后,我们只需要从链子拿到我们需要的grad()就行了