参考https://blog.csdn.net/guoyunfei20/article/details/78031498
向后传播(BP)是为了根据损失函数计算得到的误差更新网络的参数。
思想是通过计算得到某一个参数承担了误差的多少,如果这个参数的增加让误差更大了,更新的方向为减小这个参数。
通过链式法则计算这个参数承担了误差的多少。
首先得到从这个参数到误差计算结果的路径。比如参数w通过:h = f1(w),o = f2(h),e = f3(o)得到最终的误差e。那么根据链式法则,这个参数承担了误差的多少=[d(e)/d(o)]**[d(o)/d(h)]*[*d(h)/d(w)],由于这三个导数的结果都可以在向前传播中得到,因此可以计算出这个参数更新的梯度。