神经网络难以训练?-梯度消失问题

在一个标准神经网络中,对于不同层的训练速度是显著不同的,其原因在于反向传播中传递到每个层的增量是累乘的,如果神经元w设置在(0,1)之间,那么很有可能在经过若干层传递到最前面的层后对应的增量已经非常小,这就是所谓的梯度消失问题。(梯度爆炸类似)

假设每层只有一个神经元

按照平时随机从正态分部(0,1)中随机产生权重的方法, 大部分|w| < 1

进一步通过计算来验证:

另外一个例子:

 [784,30,30,30,10]

 

再增加一层:

[784,30,30,30,30,10]

 

可以看出,第一个隐藏层比第四个几乎要慢100倍

这种现象普遍存在于神经网络之中, 叫做: vanishing gradient problem

另外一种情况是内层的梯度被外层大很多, 叫做exploding gradient problem

所以说神经网络算法用gradient之类的算法学习存在不稳定性

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值