深入理解ReLU、Leaky ReLU、 PReLU、ELU、Softplus-CSDN博客

本文链接：https://blog.csdn.net/qq_37555071/article/details/107811203

本文深入探讨了ReLU、Leaky ReLU、PReLU、ELU和Softplus这五种常用的激活函数。ReLU因其稀疏性和避免梯度消失的优势而广泛使用，但也存在死亡ReLU问题。Leaky ReLU通过引入小梯度解决了此问题，而PReLU更进一步，允许每个神经元拥有可学习的参数。ELU在负区域能提供更大的动态范围，而Softplus是ReLU的平滑形式，不具备稀疏性。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

文章目录

- ReLU
- Leaky ReLU
- PReLU
- ELU
- Softplus

ReLU

ReLU（Rectified Linear Unit，修正线性单元），也叫Rectifier 函数，它的定义如下：

在这里插入图片描述

Relu可以实现单侧抑制（即把一部分神经元置0），能够稀疏模型， Sigmoid 型活tanh激活函数会导致一个非稀疏的神经网络，而Relu大约 50% 的神经元会处于激活状态，具有很好的稀疏性。
在这里插入图片描述

Relu函数右侧线性部分梯度始终为1，具有 宽兴奋边界的特性 （即兴奋程度可以非常高），不会发生神经网络的梯度消失问题，能够加速梯度下降的收敛速度。而tanh和sigmoid在离0点近的时候梯度大，在远离0点的时候梯度小，容易出现梯度消失。

在生物神经网络中，同时处于兴奋状态的神经元非常稀疏．人脑中在同一时刻大概只有 1% ∼ 4% 的神经元处于活跃状态

Relu的缺点：ReLU 函数不是在0周围，相当于给后一层的神经网络引入偏置偏移，会影响梯度下降的效率。另外，在训练时，如果参数在一次不恰当的更新后，某个 ReLU 神经元输出为0，那么这个神经元自身参数的梯度永远都会是0，在以后的训练过程中永远不能被激活，这种现象称为死亡 ReLU 问题 （Dying ReLU Problem）