前言
数值稳定性,这个说起来简单但真正碰到确实一个非常难的问题,而且它十分的重要。
当神经网络在训练的过程中,碰到NAN
和inf
的时候,是最为恼火的,这严重地影响了训练。
有的时候,模型不断训练但没有结果也可能是数值稳定性问题。
次幂的恐怖
回想一些梯度求导的式子,采用的是链式求导法则,也就是说最终的结果是多个导数的乘积。
来计算两个式子:
1. 2 50 = 9 , 100.4381500021497733275852753426 0. 8 50 = 1.4272476927059598810582859694495