反向传播(back propagation):指用于计算梯度的方法,允许来自代价函数的信息通过网络向后流动,以便计算梯度。
一、计算图(computational graph)
为了更加方便和形象的表示计算,使用图中的每一个节点来表示一个变量x,通过有向边,以及引入相应的操作(变量的简单函数),得到输出变量y。如下图所示,有向边汇集处的标识为对节点的变量进行相应的操作。
二、微积分中的链式法则
设x 是实数,f 和g 是从实数映射到实数的函数。假设y = g(x) 并且z = f(g(x)) = f(y)。那么链式法则是说:
注:此处的链式法则与概率论中的链式法则是完全不同的两回事。
三、前馈计算
对于给定的一个前馈神经网络,我们用下面的记号来描述这样网络。