整流线型函数

  • ReLU:正的值会通过ReLU,所有的负值都设置为零。

    • 优点:ReLU的训练速度比Tanh快得多,因为它在1的时候没有饱和。
  • LReLU :设置了一个参数,它用一个较低的斜率替换了 [ − ∞ , 0 ] [-∞,0] [0]域中的零部分。

    • 优势:为什么使用LReLU :恒定的零梯度也会导致缓慢的学习,此外,其中一些神经元甚至可能不被激活。根据作者的观点,这种零稀疏性的牺牲比完全失活(ReLU)的结果更糟。但事实上,当使用PReLU而不是ReLU时,作者报告的结果是相同的或不显著地比ReLU好。
      在这里插入图片描述
  • PReLU:PReLU假设负的值应该有惩罚,它应该是参数化的。

    • 优势:注意,当a = 0时,它是ReLU。当a = 0.01时,它是leaky ReLU。现在a的值可以被学习,从而成为一个广义的ReLU。
    • PReLU 与LReLU的目标一致:通过不使某些神经元失活来提高学习速度。
    • 使用链式法则作为神经网络(反向传播)中的权值迭代更新这些参数: μ \mu μ is the momentum and ϵ \epsilon ϵ is the learning rate. In the original paper, the initial a i a_i ai used is 0.25 ∇ a i : = μ ∇ a i + ϵ ∂ ε ∂ a i \nabla a_i := \mu \nabla a_i + \epsilon \frac{\partial \varepsilon}{\partial a_i} ai:=μai+ϵaiε

在这里插入图片描述

  • RReLU (Randomized ReLU):动机是引入随机负斜率,为了减少过度拟合。

  • 公式:


    a j i a_{ji} aji 表示以 l l l u u u为界的均匀分布中的随机数,其中 i i i为信道, j j j为例子。在测试阶段, a j i a_{ji} aji是固定的,并取所有 a j i a_{ji} aji的平均值: a j i = l + u 2 a_{ji} = \frac{l+u}{2} aji=2l+u

  • RLU(Exponential Linear Unit ):与之前的激活函数类似,它的正部分有一个恒定的梯度为1,因此它使学习成为可能,而不会使函数那一侧的神经元饱和。LReLU、PReLU和RReLU不能保证噪声鲁棒失活,因为它们的负部分也包含在一个斜坡上,不像原来的ReLU或ELU在负部分饱和。饱和度意味着函数的小导数会减少传递到下一层的信息。接近于零的激活具有与自然梯度相似的梯度,因为函数的形状是平滑的,因此比神经元失活(ReLU)或具有非光滑斜率(LReLU)时更快地激活学习。

    • 优势:与其它整流单元一样,它加快了学习速度,缓解了消失梯度问题。
      简单说:它的正部分的梯度是1。它负的大部分都失活了。接近自然梯度值接近于零。

引用:http://laid.delanover.com/activation-functions-in-deep-learning-sigmoid-relu-lrelu-prelu-rrelu-elu-softmax/

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值