【笔记】动手学深度学习 - 数值稳定性 + 模型初始化和激活函数

数值稳定性

分为梯度爆炸和梯度消失两类,如果网络的层数比较多,就有可能出现梯度爆炸或者梯度消失

 

生物神经元似乎是用 Sigmoid(S 型)激活函数活动的,因此人们在很长一段时间内坚持 Sigmoid 函数。但事实证明,Relu 激活函数通常在 ANN 工作得更好。这是生物研究误导的例子之一。当神经网络有很多层,每个隐藏层都使用Sigmoid函数作为激励函数时,很容易引起梯度消失的问题

因为sigmoid有一个缺点:当x较大或较小时,导数接近0;并且Sigmoid函数导数的最大值是0.25,都是小于1的值。而我们初始化的网络权值通常都小于1,因此,当层数增多时,小于0的值不断相乘,最后就导致梯度消失的情况出现。同理,梯度爆炸的问题也就很明显了,就是当权值过大时,导致 ,最后大于1的值不断相乘,就会产生梯度爆炸

梯度爆炸的问题:

        可能最后计算出来的梯度的值太大从而超过了值域(对应16位浮点最为严重)

        对于学习率敏感:

                如果学习率太大,即有一个较大的参数,从而使得梯度非常大。

                如果降低学习率,就有可能导致训练效果不明显。

                所以我们需要在训练的时候随时调整学习率。

梯度消失的问题:

        多次之后可能梯度值直接变为0

        不管如何选择学习率训练都没有进展

        只能在很浅的网络部分有作用,仅仅只是在顶部层训练的很好,无法使得神经网络更深。

让训练更加稳定(梯度不要太大或者太小):让梯度在一个合理范围内。例如[1e-6,1e3]

        让乘法变成加法(ResNet,LSTM)

        梯度归一化,或者梯度剪裁。

模型初始化和激活函数

 

 

 

        

        

参考:

https://blog.csdn.net/junjun150013652/article/details/81274958

https://www.jianshu.com/p/3f35e555d5ba

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值