最近看一些复杂网络的BP推导看的头疼,通过computational graph之后看起来会舒服很多,这里记录下:
1.准备工作
首先从最简单的图开始:
可以看到,节点表示数,可以是vector,tensor,scala等 ,连边表示一个函数操作,比如+ - * / 等等
下面画一个稍微多一点的小学计算题的计算图:
有了这个图了,我们要怎么进行BP计算梯度呢?
首先,通过正向传播,将各个节点的值计算出来,如上面那个图所示,
接着,我们根据各个节点的值将每条边对应的偏导求出来,如下图:
这样,我要想计算偏e/偏b,我只需要从终点e开始,沿着到b的路径,将各个边的偏导乘起来,如果遇到分支合并,比如上面的c,d一起合并到b,那么就将两条路的偏导都加起来就是对b偏导的结果。
可以看到,通过这样的反向传播,每条边的偏导很快就计算出来了,这样有什么好处呢?
我们回想下在做神经网络最后的时候,都是通过一个loss function获得最后一个loss的值,这其实就可以看成是一个最后的根节点,我们要向通过loss去BP网络上各个权重的偏导,如果通过这种计算图模型来做的话,很快我们就可以将所有偏导都求出来而不会计算太多重复的偏导(如果按照传统计算方式,会设计大量重复工作)。
但是,上面这是不涉及到share weight的情况下,回想下我们的CNN,fi