梯度消失研究记录

1,sigmoid函数

f`(g(x))=f`(g)*g`(x)

若其中g`(x)小于1大于0,则每经过一层都会导致权重乘以一个小数,因此层数变多后会导致权重消失。

2,relu

relu`(x)=x若x大于0,x小于0则等于0

假设输入均值是1,简化问题认为输入都是1或有一半是1,其余是0.而w都是小数,则其输出结果依据w方差和输入的数目成比例增加或减少。

因此假如核太多并且没有归一化可能会导致输出结果随层数快速增加。可以考虑采用归一化手段, 如cnn中的local normalization。

relu假如让w均值为0,会导致输出百分之50概率是0,因此会导致本层一半的输出是0。

求导的话就是一路乘其路径上的权重。权重有可能是正或负,但权重是小数也会每层缩小梯度,最后乘以本次输入的x值。因此每隔多少层造一个输出,然后制造一个误差传过去进行训练。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值