论文阅读

1.Understanding the difficulty of training deep feedforward neural networks

目的:分析为什么标准梯度下降和随机初始化在神经网络上取得的效果不太理想;可以为神经网络设计更好的算法。

结果:非线性激活函数的作用,logistic sigmoid激活函数不太适合随机初始化的深层神经网络,因为它的平均值会使尤其是顶层隐藏层陷入饱和;还发现饱和单位可以自行移除饱和度,尽管速度很慢;我们发现,饱和度较低的新非线性往往是有益的;

最后,通过研究层和训练过程中的激活和梯度是如何变化的,当与每层相关的雅克比矩阵的奇异值都远低于1时,训练可能会更困难。所以作者想要提出一种新的初始化机制,来使得收敛速度更快。

3 激活函数的影响以及在训练过程中的饱和现象

想要避免的两件事情:激活函数的过度饱和(然后梯度不会传播得很好)以及过于线性的单位(他们不会计算一些有趣的东西),这两件事情可以从激活函数的演变中揭示出来

3.1使用sigmoid进行实验

sigmoid非线性激活函数早已经显示出缓慢的学习过程,因为其非零均值在Hessian中引起重要的奇异值。而在本节中,我们会看到深度前馈网络中sigmoid激活函数造成的另一症状行为。

我们想通过观察训练期间激活的演变来研究可能的饱和问题;




评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值