整流线型函数

最新推荐文章于 2023-12-01 13:12:08 发布

NockinOnHeavensDoor

最新推荐文章于 2023-12-01 13:12:08 发布

阅读量586

点赞数

分类专栏：机器学习神经网络

神经网络同时被 2 个专栏收录

28 篇文章 1 订阅

订阅专栏

15 篇文章 0 订阅

订阅专栏

ReLU：正的值会通过ReLU，所有的负值都设置为零。
- 优点：ReLU的训练速度比Tanh快得多，因为它在1的时候没有饱和。
LReLU :设置了一个参数，它用一个较低的斜率替换了 $[- \infty ， 0]$ 域中的零部分。
- 优势：为什么使用LReLU ：恒定的零梯度也会导致缓慢的学习，此外，其中一些神经元甚至可能不被激活。根据作者的观点，这种零稀疏性的牺牲比完全失活(ReLU)的结果更糟。但事实上，当使用PReLU而不是ReLU时，作者报告的结果是相同的或不显著地比ReLU好。
PReLU：PReLU假设负的值应该有惩罚，它应该是参数化的。
- 优势：注意，当a = 0时，它是ReLU。当a = 0.01时，它是leaky ReLU。现在a的值可以被学习，从而成为一个广义的ReLU。
- PReLU 与LReLU的目标一致：通过不使某些神经元失活来提高学习速度。
- 使用链式法则作为神经网络(反向传播)中的权值迭代更新这些参数： $\mu$ is the momentum and $\epsilon$ is the learning rate. In the original paper, the initial $a_i$ used is 0.25 $\nabla a_i := \mu \nabla a_i + \epsilon \frac{\partial \varepsilon}{\partial a_i}$

在这里插入图片描述

RReLU （Randomized ReLU）：动机是引入随机负斜率,为了减少过度拟合。
公式：

$a_{ji}$ 表示以 $l$ 和 $u$ 为界的均匀分布中的随机数，其中 $i$ 为信道， $j$ 为例子。在测试阶段， $a_{ji}$ 是固定的，并取所有 $a_{ji}$ 的平均值: $a_{ji} = \frac{l+u}{2}$ 。
RLU（Exponential Linear Unit ）：与之前的激活函数类似，它的正部分有一个恒定的梯度为1，因此它使学习成为可能，而不会使函数那一侧的神经元饱和。LReLU、PReLU和RReLU不能保证噪声鲁棒失活，因为它们的负部分也包含在一个斜坡上，不像原来的ReLU或ELU在负部分饱和。饱和度意味着函数的小导数会减少传递到下一层的信息。接近于零的激活具有与自然梯度相似的梯度，因为函数的形状是平滑的，因此比神经元失活(ReLU)或具有非光滑斜率(LReLU)时更快地激活学习。
- 优势：与其它整流单元一样，它加快了学习速度，缓解了消失梯度问题。
  简单说：它的正部分的梯度是1。它负的大部分都失活了。接近自然梯度值接近于零。

引用：http://laid.delanover.com/activation-functions-in-deep-learning-sigmoid-relu-lrelu-prelu-rrelu-elu-softmax/

NockinOnHeavensDoor

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
整流线型函数

Rectified Linear Unit (PReLU)ReLU：正的值会通过ReLU，所有的负值都设置为零。优点：ReLU的训练速度比Tanh快得多，因为它在1的时候没有饱和。LReLU :设置了一个参数，它用一个较低的斜率替换了[−∞，0][-∞，0][−∞，0]域中的零部分。优势：为什么使用LReLU ：恒定的零梯度也会导致缓慢的学习，此外，其中一些神经元甚至可能不被...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。