常见激活函数(Activation Function)比较,以及梯度消失/爆炸现象解释

本文探讨了梯度消失和梯度爆炸在神经网络中的现象,强调它们主要影响靠近输入层的神经元。原因在于链式求导导致的梯度放大或缩小。文章提出了通过减小网络深度、选择适当激活函数、权重初始化策略以及使用正则化技术如L1/L2、batchNorm和layerNorm来解决这些问题。
摘要由CSDN通过智能技术生成

激活函数(Activation Function) 对激活函数、梯度消失或梯度爆炸的原因、解决办法都做了很透彻的讲解!

1、有关“梯度消失和梯度爆炸”,自己的理解

(1)梯度消失和梯度爆炸都发生在靠近输入层的神经元网络,原因:

  • 梯度的链式相乘
  • 越靠近输入层,求导的链式越长。如下图所示,b1、b3的后半部分导数是完全相同的,可以认为:b1的导数 = λ * b3的导数。
    其中 λ 就是 引发 输入层发生梯度和梯度爆炸的根源。
    在这里插入图片描述

(2)解决办法

因为λ 中包含之前层的导数σ 之前层的权重wi,所以解决他们的办法也是从这2项入手:

  • 减少训练深度(使得链式计算变短,避免出现不恰当的λ
  • 选择合适的激活函数(针对导数σ
  • 选择合适的权重初始化方法(针对权重w
  • 正则L1, L2(针对权重w):模型训练的正则L1、L2
  • batchNorm、layerNorm:layerNorm和batchNorm
  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值