【深度学习pytorch-26】reLU函数

最新推荐文章于 2025-02-27 15:21:24 发布

华东算法王

最新推荐文章于 2025-02-27 15:21:24 发布

阅读量946

点赞数 24

分类专栏： DL-pytorch 文章标签：深度学习 pytorch 人工智能

本文链接：https://blog.csdn.net/m0_69378371/article/details/145648213

版权

105 篇文章

订阅专栏

ReLU（Rectified Linear Unit，修正线性单元）是当前深度学习中最常用的激活函数之一。它的主要优点是计算简单且能够有效缓解梯度消失问题，尤其是在深层网络中。因此，ReLU 已成为大多数神经网络隐藏层的标准激活函数。

ReLU 函数的数学表达式非常简单：

$\max(0, x)$

也就是说：

ReLU 函数的图像呈现为一条经过原点的折线。它的输出为正数时与输入相同，而负数时输出为 0。

计算简单：ReLU 函数只涉及取最大值的操作，因此计算非常高效。相比于 Sigmoid 和 Tanh 等激活函数，ReLU 的计算速度更快。
有效避免梯度消失问题：当输入为正数时，ReLU 的梯度为 1，能够有效地避免梯度消失问题。梯度消失通常出现在 Sigmoid 和 Tanh 等激活函数中，而 ReLU 的梯度在正区间始终为 1，保证了梯度的传播。
引入非线性：尽管 ReLU 在负区间输出为 0，但它仍然具有非线性特性，可以帮助神经网络学习复杂的非线性关系。

死神经元问题：当输入值为负时，ReLU 输出为 0，这意味着神经元不会对负输入做出反应。如果网络中有很多神经元输出为 0，这些神经元就成为了“死神经元”，无法再更新它们的权重，导致学习过程停滞。
不对称性：ReLU 函数的输出不对称，它只能对正输入做出响应，对于负输入输出为 0。虽然这能加速训练，但也限制了网络的表示能力。

ReLU vs Sigmoid：
- Sigmoid：输出范围为 ( (0, 1) )，适用于输出层的概率预测；但在深层网络中会遇到梯度消失问题。
- ReLU：输出范围为 ( [0, \infty) )，能够有效避免梯度消失问题，尤其在深层网络中表现更好。
ReLU vs Tanh：
- Tanh：输出范围为 ( (-1, 1) )，对称性更好，但仍然容易出现梯度消失问题。
- ReLU：计算更简单，避免了梯度消失问题，但有死神经元问题。

ReLU 激活函数广泛应用于：

为了克服 ReLU 的缺点（尤其是死神经元问题），研究人员提出了 ReLU 的一些变种，常见的有：

公式：
$\begin{cases} x & \text{if } x > 0 \\ \alpha x & \text{if } x \leq 0 \end{cases}$
其中 ( \alpha ) 是一个小的常数（如 0.01）。
优点：Leaky ReLU 解决了死神经元问题，负输入也能产生小的输出，避免神经元完全不更新。

公式：
$\begin{cases} x & \text{if } x > 0 \\ \alpha x & \text{if } x \leq 0 \end{cases}$
这里的 ( \alpha ) 是一个可学习的参数，而不是固定值。
优点：通过学习每个神经元的负半轴斜率，PReLU 能够根据数据自动调整负输入的输出，使得网络训练更加灵活。

公式：
$\begin{cases} x & \text{if } x > 0 \\ \alpha(e^x - 1) & \text{if } x \leq 0 \end{cases}$
其中 ( \alpha ) 是一个常数。
优点：ELU 在负输入时引入指数函数，使得输出值更加平滑，并且能够避免死神经元问题。