ReLU系列的激活函数相对于Sigmoid和Tanh激活函数的优点是什么? 它们有什么局限性以及如何改进?

优点
(1) 从计算的角度上, Sigmoid和Tanh激活函数均需要计算指数, 复杂度
高, 而ReLU只需要一个阈值即可得到激活值。
(2) ReLU的非饱和性可以有效地解决梯度消失的问题, 提供相对宽的激活
边界。
(3) ReLU的单侧抑制提供了网络的稀疏表达能力。
局限性
ReLU的局限性在于其训练过程中会导致神经元死亡的问题。 这是由于函数

在这里插入图片描述

导致负梯度在经过该ReLU单元时被置为0, 且在之后也不被任何数
据激活, 即流经该神经元的梯度永远为0, 不对任何数据产生响应。 在实际训练中, 如果学习率(Learning Rate) 设置较大, 会导致超过一定比例的神经元不可逆死亡, 进而参数梯度无法更新, 整个训练过程失败。
为解决这一问题, 人们设计了ReLU的变种Leaky ReLU(LReLU) , 其形式表示为
在这里插入图片描述
ReLU和LReLU的函数曲线对比如图9.9所示。 LReLU与ReLU的区别在于,
当z<0时其值不为0, 而是一个斜率为a的线性函数, 一般a为一个很小的正常数,这样既实现了单侧抑制, 又保留了部分负梯度信息以致不完全丢失。 但另一方面, a值的选择增加了问题难度, 需要较强的人工先验或多次重复训练以确定合适的参数值
在这里插入图片描述
基于此, 参数化的PReLU(Parametric ReLU) 应运而生。 它与LReLU的主要区别是将负轴部分斜率a作为网络中一个可学习的参数, 进行反向传播训练, 与其他含参数网络层联合优化。 而另一个LReLU的变种增加了“随机化”机制, 具体地, 在训练过程中, 斜率a作为一个满足某种分布的随机采样; 测试时再固定下来。 Random ReLU(RReLU) 在一定程度上能起到正则化的作用。

参考文献:百面机器学习

  • 1
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 2
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值