-
ReLU:正的值会通过ReLU,所有的负值都设置为零。
- 优点:ReLU的训练速度比Tanh快得多,因为它在1的时候没有饱和。
-
LReLU :设置了一个参数,它用一个较低的斜率替换了 [ − ∞ , 0 ] [-∞,0] [−∞,0]域中的零部分。
- 优势:为什么使用LReLU :恒定的零梯度也会导致缓慢的学习,此外,其中一些神经元甚至可能不被激活。根据作者的观点,这种零稀疏性的牺牲比完全失活(ReLU)的结果更糟。但事实上,当使用PReLU而不是ReLU时,作者报告的结果是相同的或不显著地比ReLU好。
- 优势:为什么使用LReLU :恒定的零梯度也会导致缓慢的学习,此外,其中一些神经元甚至可能不被激活。根据作者的观点,这种零稀疏性的牺牲比完全失活(ReLU)的结果更糟。但事实上,当使用PReLU而不是ReLU时,作者报告的结果是相同的或不显著地比ReLU好。
-
PReLU:PReLU假设负的值应该有惩罚,它应该是参数化的。
- 优势:注意,当a = 0时,它是ReLU。当a = 0.01时,它是leaky ReLU。现在a的值可以被学习,从而成为一个广义的ReLU。
- PReLU 与LReLU的目标一致:通过不使某些神经元失活来提高学习速度。
- 使用链式法则作为神经网络(反向传播)中的权值迭代更新这些参数: μ \mu μ is the momentum and ϵ \epsilon ϵ is the learning rate. In the original paper, the initial a i a_i ai used is 0.25 ∇ a i : = μ ∇ a i + ϵ ∂ ε ∂ a i \nabla a_i := \mu \nabla a_i + \epsilon \frac{\partial \varepsilon}{\partial a_i} ∇ai:=μ∇ai+ϵ∂ai∂ε
-
RReLU (Randomized ReLU):动机是引入随机负斜率,为了减少过度拟合。
-
公式:
a j i a_{ji} aji 表示以 l l l和 u u u为界的均匀分布中的随机数,其中 i i i为信道, j j j为例子。在测试阶段, a j i a_{ji} aji是固定的,并取所有 a j i a_{ji} aji的平均值: a j i = l + u 2 a_{ji} = \frac{l+u}{2} aji=2l+u。
-
RLU(Exponential Linear Unit ):与之前的激活函数类似,它的正部分有一个恒定的梯度为1,因此它使学习成为可能,而不会使函数那一侧的神经元饱和。LReLU、PReLU和RReLU不能保证噪声鲁棒失活,因为它们的负部分也包含在一个斜坡上,不像原来的ReLU或ELU在负部分饱和。饱和度意味着函数的小导数会减少传递到下一层的信息。接近于零的激活具有与自然梯度相似的梯度,因为函数的形状是平滑的,因此比神经元失活(ReLU)或具有非光滑斜率(LReLU)时更快地激活学习。
- 优势:与其它整流单元一样,它加快了学习速度,缓解了消失梯度问题。
简单说:它的正部分的梯度是1。它负的大部分都失活了。接近自然梯度值接近于零。
- 优势:与其它整流单元一样,它加快了学习速度,缓解了消失梯度问题。