常用的激活函数理解

最新推荐文章于 2024-08-14 00:15:00 发布

Hailey的算法学习笔记

最新推荐文章于 2024-08-14 00:15:00 发布

阅读量1.3k

点赞数 2

分类专栏：算法学习文章标签： python 深度学习

本文链接：https://blog.csdn.net/weixin_41168869/article/details/131332085

版权

算法学习专栏收录该内容

28 篇文章 0 订阅

订阅专栏

常见的激活函数包括sigmoid函数、ReLU函数、Leaky ReLU函数、ELU函数、tanh函数、softmax函数和 gelu函数等。下面对每种激活函数进行详细介绍。

1. Sigmoid函数

Sigmoid函数是一种常用的激活函数，其原理是将输入的值映射到0到1之间，具体公式为：

$\sigma(x) = \frac{1}{1+e^{-x}}$
在这里插入图片描述

Sigmoid函数的导数公式为：

$\frac{d\sigma(x)}{dx}=\sigma(x)(1-\sigma(x))$
在这里插入图片描述

Sigmoid函数的优点是它可以将任何实数值映射到0到1之间，因此在二分类问题中比较常用。它的缺点是在输入值比较大或比较小的情况下，函数的梯度会变得非常小，这种现象称为梯度消失，会导致网络训练缓慢。

2. ReLU函数

ReLU函数是一种非常简单的激活函数，它的原理是将输入的值直接输出，如果输入小于0，则输出0。具体公式为：

$\text{ReLU}(x) = \max(0, x)$

ReLU函数的导数公式为：

$\frac{d\text{ReLU}(x)}{dx} = \begin{cases} 1 &\text{if } x > 0 \\ 0 &\text{if } x \leq 0 \end{cases}$

ReLU函数的优点是它的计算速度非常快，同时在输入大于0时梯度为1，使得网络的训练速度非常快。它的缺点是在输入小于0时，梯度为0，称为“神经元死亡”现象，这会导致这个神经元再也无法被激活。

3. Leaky ReLU函数

Leaky ReLU函数是对ReLU函数的改进，其原理是在输入小于0的情况下，输出一个小的正数而不是0，这样可以避免神经元死亡现象。具体公式为：

$\text{LeakyReLU}(x) = \begin{cases} x &\text{if } x > 0 \\ \alpha x &\text{if } x \leq 0 \end{cases}$

其中 $\alpha$ 是一个小的正数，通常取0.01。Leaky ReLU函数的导数公式为：

$\frac{d\text{LeakyReLU}(x)}{dx} = \begin{cases} 1 &\text{if } x > 0 \\ \alpha &\text{if } x \leq 0 \end{cases}$

Leaky ReLU函数的优点是它避免了神经元死亡现象，同时在输入大于0时，梯度为1，训练速度快。它的缺点是在输入小于0时，梯度不是完全连续的，这可能会影响模型的性能。

4. ELU函数

ELU函数是对Leaky ReLU函数的改进，其原理是在输入小于0的情况下，输出一个接近于0的值，这样可以避免Leaky ReLU函数在输入小于0时梯度不连续的问题。具体公式为：

$\text{ELU}(x) = \begin{cases} x &\text{if } x > 0 \\ \alpha(e^x-1) &\text{if } x \leq 0 \end{cases}$

其中 $\alpha$ 是一个小的正数，通常取1。ELU函数的导数公式为：

$\frac{d\text{ELU}(x)}{dx} = \begin{cases} 1 &\text{if } x > 0 \\ \alpha e^x &\text{if } x \leq 0 \end{cases}$

ELU函数的优点是它避免了神经元死亡现象，同时在输入小于0时梯度连续，有利于训练。它的缺点是在输入大于0的情况下，计算速度相对较慢。

5. tanh函数

tanh函数是一种常用的激活函数，其原理是将输入的值映射到-1到1之间，具体公式为：

$\text{tanh}(x) = \frac{e^x-e^{-x}}{e^x+e^{-x}}$
在这里插入图片描述

tanh函数的导数公式为：

$\frac{d\text{tanh}(x)}{dx} = 1-\text{tanh}^2(x)$
在这里插入图片描述

tanh函数的优点是它可以将任何实数值映射到-1到1之间，因此在对称性要求较高的任务中比较常用。它的缺点与Sigmoid函数类似，在输入值比较大或比较小的情况下，函数的梯度会变得非常小，导致梯度消失。

6. softmax函数

softmax函数是一种常用的激活函数，主要用于多分类问题中，其原理是将输入的值映射到0到1之间，并且所有输出值之和为1，具体公式为：

$\text{softmax}(x_i) = \frac{e^{x_i}}{\sum_{j=1}^K e^{x_j}}$

其中 $K$ 是输出的类别数。softmax函数的导数公式比较复杂，这里不再赘述。

softmax函数的优点是它可以将输出值映射到概率分布上，有利于多分类问题的处理。它的缺点是在输入值比较大或比较小的情况下，函数的梯度会变得非常小，导致梯度消失。此外，softmax函数也容易受到噪声数据的影响，需要进行一些技巧性的处理。

7. gelu函数

GELU（Gaussian Error Linear Units）是一种比较新的激活函数，其原理是将输入的值通过高斯误差函数进行变换，具体公式为：

$\text{GELU}(x) = x\Phi(x)$

其中 $\Phi(x)$ 是高斯分布的累积分布函数：

$\Phi(x) = \frac{1}{2}(1+\text{erf}(\frac{x}{\sqrt{2}}))$

其中erf(x)是误差函数：
$\text{erf}(x) = \frac{2}{\sqrt{\pi}}\int_0^x e^{-t^2}dt$

GELU函数的导数公式为：

$\frac{d\text{GELU}(x)}{dx} = \Phi(x)+x\phi(x)$

其中 $\phi(x)$ 是高斯分布的概率密度函数：

$\phi(x) = \frac{1}{\sqrt{2\pi}}e^{-\frac{x^2}{2}}$

GELU函数的优点是它在输入值比较大或比较小的情况下，梯度不会变得非常小，避免了梯度消失问题。同时，GELU函数在输入值为负数时，具有非零的导数，避免了神经元死亡问题。此外，GELU函数的计算速度较快。

GELU函数的缺点是它的计算复杂度较高，需要计算误差函数和高斯分布的概率密度函数。此外，GELU函数的性能与ReLU等常用的激活函数相比并没有明显的优势，因此在实际应用中需要根据具体情况进行选择。

Hailey的算法学习笔记

关注

2
点赞
踩
10

收藏

觉得还不错? 一键收藏
打赏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录