梯度消失,梯度爆炸

用Ik代表第K个神经元的总输入,用Ok代表第k个神经元的输出。
举例计算5号神经元的梯度:

在这里插入图片描述
Gk有可能在传播过程中绝对值越来越小(直到变成0),这称为梯度消失,其会使得网络的训练停滞不前。

Gk有可能在传播过程中绝对值越来越大(直到发散),这称为梯度爆炸,其会使得网络不稳定,性能崩溃。

梯度消失举例:
如果采用sigmoid或tanh非线性,在输入的绝对值很大的时候,会出现“饱和”,即导数趋近0,根据公式,会造成梯度消失。

梯度爆炸的例子:
如果网络中的W很大,例如初始化网络时使用了过大的初始值,或是网络的权重随着训练越来越大,就可能发生梯度爆炸。对于循环神经网络和GAN,较为容易出现这种现象。

因此,如果发现网络的训练性能很差,就要考虑是否出现了梯度消失和梯度爆炸。
改善梯度可通过多种技巧,包括批规范化、残差网络,还可采用梯度截断技术,或引入一定的梯度惩罚。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值