3.15 数值稳定性和模型初始化
理解了正向传播与反向传播以后,我们来讨论一下深度学习模型的数值稳定性问题以及模型参数的初始化方法。深度模型有关数值稳定性的典型问题是衰减(vanishing)和爆炸(explosion)。[https://tangshusen.me/Dive-into-DL-PyTorch/#/chapter03_DL-basics/3.15_numerical-stability-and-init](https://tangshusen.me/Dive-into-DL-PyTorch/#/chapter03_DL-basics/3.15_numerical-stability-and-init)
3.15.1 衰减和爆炸
当神经网络的层数较多时,模型的数值稳定性容易变差。假设一个层数为LL LU(−a+b6,a+b6).
它的设计主要考虑到,模型参数初始化后,每层输出的方差不该受该层输入个数影响,且每层梯度的方差也不该受该层输出个数影响。
小结
- 深度模型有关数值稳定性的典型问题是衰减和爆炸。当神经网络的层数较多时,模型的数值稳定性容易变差。
- 我们通常需要随机初始化神经网络的模型参数,如权重参数。
参考文献
[1] Glorot, X., & Bengio, Y. (2010, March). Understanding the difficulty of training deep feedforward neural networks. In Proceedings of the thirteenth international conference on artificial intelligence and statistics (pp. 249-256).