1.Understanding the difficulty of training deep feedforward neural networks
目的:分析为什么标准梯度下降和随机初始化在神经网络上取得的效果不太理想;可以为神经网络设计更好的算法。
结果:非线性激活函数的作用,logistic sigmoid激活函数不太适合随机初始化的深层神经网络,因为它的平均值会使尤其是顶层隐藏层陷入饱和;还发现饱和单位可以自行移除饱和度,尽管速度很慢;我们发现,饱和度较低的新非线性往往是有益的;
最后,通过研究层和训练过程中的激活和梯度是如何变化的,当与每层相关的雅克比矩阵的奇异值都远低于1时,训练可能会更困难。所以作者想要提出一种新的初始化机制,来使得收敛速度更快。
3 激活函数的影响以及在训练过程中的饱和现象
想要避免的两件事情:激活函数的过度饱和(然后梯度不会传播得很好)以及过于线性的单位(他们不会计算一些有趣的东西),这两件事情可以从激活函数的演变中揭示出来
3.1使用sigmoid进行实验
sigmoid非线性激活函数早已经显示出缓慢的学习过程,因为其非零均值在Hessian中引起重要的奇异值。而在本节中,我们会看到深度前馈网络中sigmoid激活函数造成的另一症状行为。
我们想通过观察训练期间激活的演变来研究可能的饱和问题;