【激活函数总结】深度学习最常用的十大激活函数

allein_STR

已于 2022-01-30 12:40:17 修改

阅读量1k

点赞数

分类专栏：机器学习/深度学习文章标签：深度学习人工智能

于 2022-01-30 12:39:51 首次发布

原文链接：https://sukanyabag.medium.com/activation-functions-all-you-need-to-know-355a850d025e

版权

机器学习/深度学习专栏收录该内容

76 篇文章 16 订阅 ¥49.90 ¥99.00

订阅专栏

超级会员免费看

本文详细介绍了深度学习中常见的十大激活函数，包括Sigmoid、Tanh、ReLU、Leaky ReLU、ELU、PReLU、Softmax、Swish、Maxout和Softplus。讨论了各自的函数表达式、适用场景、优点和缺点，这些激活函数在神经网络中用于学习数据的复杂模式，对提升模型性能至关重要。

摘要由CSDN通过智能技术生成

PReLU（Parametric ReLU）

前言

激活函数（Activation Function）是一种添加到人工神经网络中的函数，旨在帮助网络学习数据中的复杂模式。类似于人类大脑中基于神经元的模型，激活函数最终决定了要发射给下一个神经元的内容。

在人工神经网络中，一个节点的激活函数定义了该节点在给定的输入或输入集合下的输出。标准的计算机芯片电路可以看作是根据输入得到开（1）或关（0）输出的数字电路激活函数。因此，激活函数是确定神经网络输出的数学方程式，本文概述了深度学习中常见的十种激活函数及其优缺点。

首先我们来了解一下人工神经元的工作原理，大致如下：

上述过程的数学可视化过程如下图所示：

Sigmoid

Sigmoid 函数的图像看起来像一个 S 形曲线。

函数表达式

$f(z)=1/(1+e^{-z})$

Sigmoid 激活函数的适用场景

Sigmoid 函数的输出范围是 0 到 1。由于输出值限定在 0 到 1，因此它对每个神经元的输出进行了归一化；
用于将预测概率作为输出的模型。由于概率的取值范围是 0 到 1，因此 Sigmoid 函数非常合适；
梯度平滑，避免「跳跃」的输出值；
函数是可微的。这意味着可以找到任意两个点的 sigmoid 曲线的斜率；
明确的预测，即非常接近 1 或 0。

Sigmoid 激活函数的缺点

倾向于梯度消失；
函数输出不是以 0 为中心的，这会降低权重更新的效率；
Sigmoid 函数执行指数运算，计算机运行得较慢。

Tanh/双曲正切函数

tanh 激活函数的图像也是 S 形，

函数表达式

$f(x)=tanh(x)=\frac{2}{1+e^{-2x}}-1$

Tanh激活函数优点

tanh 是一个双曲正切函数。tanh 函数和 sigmoid 函数的曲线相对相似。但是它比 sigmoid 函数更有一些优势。

首先，当输入较大或较小时，输出几乎是平滑的并且梯度较小，这不利于权重更新。二者的区别在于输出间隔，tanh 的输出间隔为 1，并且整个函数以 0 为中心，比 sigmoid 函数更好；
在 tanh 图中，负输入将被强映射为负，而零输入被映射为接近零。

注意：在一般的二元分类问题中，tanh 函数用于隐藏层，而 sigmoid 函数用于输出层，但这并不是固定的，需要根据特定问题进行调整。

ReLU

ReLU 激活函数图像如上图所示，

函数表达式

$\sigma (x)=\begin{cases} &max(0,x) \text{ if } x\geqslant 0 \\ &0 \text{ if } x< 0 \end{cases}$

ReLU激活函数优点

当输入为正时，不存在梯度饱和问题。
计算速度快得多。ReLU 函数中只存在线性关系，因此它的计算速度比 sigmoid 和 tanh 更快。

ReLU激活函数确

Dead ReLU 问题。当输入为负时，ReLU 完全失效，在正向传播过程中，这不是问题。有些区域很敏感，有些则不敏感。但是在反向传播过程中，如果输入负数，则梯度将完全为零，sigmoid 函数和 tanh 函数也具有相同的问题；
我们发现 ReLU 函数的输出为 0 或正数，这意味着 ReLU 函数不是以 0 为中心的函数。