深度学习2-激活函数

最新推荐文章于 2024-09-05 15:28:05 发布

Carrie_Lei

最新推荐文章于 2024-09-05 15:28:05 发布

阅读量470

点赞数 8

分类专栏：深度学习文章标签：深度学习人工智能

本文链接：https://blog.csdn.net/finly4599/article/details/141402374

版权

11 篇文章 0 订阅

订阅专栏

在神经网络中，激活函数（Activation Function）是至关重要的组件。它们决定了一个神经元是否应该被激活，进而决定了模型的输出。激活函数将输入信号进行非线性变换，使得神经网络能够学习和表示复杂的非线性关系。下面是一些常见的激活函数及其特点：

Sigmoid 函数是一种 S 形曲线，将输入映射到 (0, 1) 之间。

函数形式：
$\text{Sigmoid}(x) = \frac{1}{1 + e^{-x}}$
特点：
- 输出范围在 (0, 1) 之间，可以解释为概率。
- 适合用于二分类问题的输出层。
- 容易导致梯度消失问题，尤其是在深层网络中，因为当输入非常大或非常小时，梯度趋近于零。
应用场景：
- 早期的神经网络。
- 二分类问题的输出层。

Tanh（双曲正切）函数是一个 S 形曲线，类似于 Sigmoid，但输出范围在 (-1, 1) 之间。

函数形式：
$\text{Tanh}(x) = \frac{e^x - e^{-x}}{e^x + e^{-x}}$
特点：
- 输出范围在 (-1, 1) 之间。
- 比 Sigmoid 函数的梯度消失问题略少，但仍可能在深层网络中出现梯度消失。
- 零中心化输出有助于加速收敛。
应用场景：
- 通常用于隐藏层的激活函数。

ReLU（Rectified Linear Unit，修正线性单元）是目前最常用的激活函数之一。

函数形式：
$\text{ReLU}(x) = \max(0, x)$
特点：
- 简单且计算高效，只需取输入的最大值。
- 不存在上限输出，因此在正区域不会饱和，减少了梯度消失问题。
- 当输入小于零时，输出为零，可能导致“神经元死亡”（Dead Neurons）问题，尤其是在训练过程中某些神经元可能永远不会激活。
应用场景：
- 常用于深度学习模型的隐藏层。

Leaky ReLU 是 ReLU 的改进版本，旨在解决 ReLU 的“神经元死亡”问题。

函数形式：
$\text{Leaky ReLU}(x) = \begin{cases} x & \text{if } x > 0 \\ \alpha x & \text{if } x \leq 0 \end{cases}$
其中， $\alpha$ 是一个小常数（通常为 0.01）。
特点：
- 在负区域中仍有很小的斜率，使得负输入也有梯度传播。
- 减少了神经元死亡的问题。
应用场景：
- 可以作为 ReLU 的替代品，用于深层神经网络。

ELU（Exponential Linear Unit）进一步改进了 ReLU 和 Leaky ReLU，旨在消除负区域的影响。

函数形式：
$\text{ELU}(x) = \begin{cases} x & \text{if } x > 0 \\ \alpha (e^x - 1) & \text{if } x \leq 0 \end{cases}$
特点：
- 负区域呈指数衰减，而不是线性。
- 零中心化输出，加快学习收敛。
- 保留了 ReLU 的优点，并在负区域提供更好的梯度流动。
应用场景：
- 需要比 Leaky ReLU 更强的负值处理能力的场景。