常用激活函数学习

最新推荐文章于 2024-06-21 15:32:23 发布

pumpkin84514

最新推荐文章于 2024-06-21 15:32:23 发布

阅读量745

点赞数 18

分类专栏： AI相关学习文章标签：学习

本文链接：https://blog.csdn.net/pumpkin84514/article/details/139205467

版权

AI相关学习专栏收录该内容

60 篇文章 0 订阅

订阅专栏

常用激活函数及其应用

ReLU (Rectified Linear Unit)
- 公式: $\max(0, x)$
- 理解: 当输入值为正时，输出等于输入值；否则输出为0。ReLU函数简单且计算效率高，能有效缓解梯度消失问题，促进深层网络的学习。
- 场景与大模型应用: ReLU是深度学习中最常用的激活函数，尤其是在卷积神经网络（CNN）和递归神经网络（RNN）的隐藏层中。著名的模型如VGGNet、ResNet系列广泛使用ReLU及其变体，如ReLU6和Leaky ReLU。
Sigmoid
- 公式: $\frac{1}{1 + e^{-x}}$
- 理解: 将输入映射到(0, 1)之间，常用于需要概率输出的场景，如二元分类问题。但因其饱和特性，导致梯度消失问题。
- 场景与大模型应用: 在早期的神经网络和一些特定任务中使用，如在LSTM的门控机制中控制信息流。现代网络较少在隐藏层使用，因梯度消失问题。
Tanh (Hyperbolic Tangent)
- 公式: $\frac{e^{x} - e^{-x}}{e^{x} + e^{-x}}$
- 理解: 输出范围在(-1, 1)，比Sigmoid具有更好的梯度特性，适用于需要中心化的输出分布。
- 场景与大模型应用: 在循环神经网络如LSTM和GRU的隐藏状态中常用，有助于保持状态的数值稳定性。
Softmax
- 公式: $f_i(x) = \frac{e^{x_i}}{\sum_{j=1}^{n} e^{x_j}}$ ，其中 $x$ 是向量， $f_i$ 是第 $i$ 个元素的softmax输出。
- 理解: 将输入向量转换为概率分布，保证所有输出之和为1，非常适合多分类问题。
- 场景与大模型应用: 几乎所有涉及多类别分类的模型输出层都会使用Softmax，如图像分类的ResNet、Inception，以及文本分类的BERT模型。
Leaky ReLU
- 公式: $\max(ax, x)$ ，其中 $a$ 是一个小于1的正值，通常是0.01。
- 理解: Leaky ReLU是对ReLU的一个改进，允许负数输入有非零斜率的输出，有助于解决“死亡ReLU”问题。
- 场景与大模型应用: 适用于需要缓解ReLU死区问题的模型，虽然不像ReLU那样普遍，但在某些特定模型或层中仍然可见。