卷积网络训练时的问题

1.训练样本大量的情况下,计算偏导数的计算量过大

解决:随机梯度下降

将从样本中抽取部分样本分成若干份,然后做梯度下降。有利于放到GPU中做并行运算,以牺牲精确度换取时间。

 

2.梯度消失问题(梯度弥散问题)

激励函数在某一段的导数过小,导致Loss过早的不再下降,精确度过早的不再提高。

解决:

消除链式法则中发生的连乘式每一项绝对值小于1的情况。

1.初始化一个合适的w

有可能引发梯度爆炸

 

2.选个合适的激励函数

ReLU函数 : y=max(x,0)

优点:在第一象限中不会出现梯度消失的问题

由于导数为1,求解他的导数要比求解Sigmoid函数的导数代价要小。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值