梯度grad公式_梯度消失梯度爆炸-Gradient Clip

本文探讨了深度学习中梯度消失与梯度爆炸的问题,特别是介绍了梯度裁剪(Gradient Clip)作为解决方案。通过设置梯度阈值,控制梯度不超过特定范围,以避免梯度爆炸导致的模型不稳定。实验表明,梯度裁剪能有效控制早期训练阶段的梯度爆炸,改善模型训练效果。
摘要由CSDN通过智能技术生成

19ba936b8eac3215f1b018c918d5eb93.png

梯度爆炸与梯度消失

sigmoid数学公式:

值域为[0,1]

sigmoid求导公式:

值域为[0,1/4]

实际现象: 当我们使用sigmoid function作为激活函数时,随着神经网络的隐藏层数增加,训练误差反而增大,造成了深度网络的不稳定。

梯度弥散: 靠近输出层的hidden layer 梯度大,参数更新更快,所以很快就会收敛。而靠近输入层的hidden layer梯度小,参数更新慢,几乎和初始状态一样,随机分布。

梯度爆炸: 当前面hidden layer的梯度通过训练变大,而后面的梯度将会指数级增大。

现象原因: sigmoid函数会将[+∞,-∞]的输入压缩到[0,1],导致当输入更新时,输出的更新会很小。在这种情况下,就会随着隐藏层数的增加,反向传递时,数值更新将会越来越小。

解决方法:

  1. Relu函数代换Sigmoid函数。
  2. 逐层贪婪预训练,如同训练自编码器的过程&
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值