梯度消失与梯度爆炸

本文探讨了在神经网络中梯度下降优化过程中可能出现的梯度消失和梯度爆炸现象。作者通过分析单层神经网络的求导过程,指出这些问题主要源于链式法则导致的梯度层层缩放,而激活函数和权重初始化对此有重要影响。权重初始化对于防止这些现象至关重要。
摘要由CSDN通过智能技术生成

作者:宝珠道人
链接:https://www.zhihu.com/question/290392414/answer/951298995
来源:知乎
著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。

梯度下降作为一种最常见的迭代式优化策略,应用在神经网络的BP算法中,由于深度神经网络层级太深,在求导的过程中,由于链式法则,可能会出现梯度消失和梯度爆炸现象,为了搞清楚为什么会出现这些情况,我们可以先从最简单的单层神经网络的求导过程着手,查看求导的结果。
正向传播的公式如下:
损失函数使用均方差形式:
对x1,w1,x2,w2进行求导,为了更加清晰,我们遵循链式法则,一步一步进行求导:
经过上述求导,我们得到输入x和权重w的梯度如下:
从上述式子我们知道 是sigmoid激活函数的求导,它的范围在(0,1)之间, 和 范围不确定,那么在多层神经网络中向上游传递的梯度可能在(0,1)之间,如果层层之间的梯度均在(0,1)之间,层层缩小,那么就会出现梯度消失。反之,如果层层传递的梯度大于1,那么经过层层扩大,就会出现梯度爆炸,可见梯度的消失与爆炸与激活函数没有特别大的关系,反而和权重有较大关系,因此权重的初始化对神经网络的训练很重要。
总之它的产生主要是由于链式法则的求导,梯度层层缩放导致的,因为神经网络的不只有激活函数的作用,还有权重与神经元的相互作用。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值