常见激活函数总结

Scofield_ZW

于 2024-09-07 14:46:01 发布

阅读量1.2k

点赞数 32

文章标签：深度学习算法机器学习

本文链接：https://blog.csdn.net/qq_32756029/article/details/141995801

版权

激活函数

文章目录

1.sigmoid

在这里插入图片描述

$f(x)=\frac{1}{1+{e}^{-x}}$

优点

输出0-1，相当于为每个神经元都做了归一化，用于将预测概率作为输出的模型是比较合适的，因为是0 - 1
梯度平滑，避免产生“跳跃”输出值
可微
又明确的预测，非常接近0或1，看函数就知道，只有x在-5至5之间才是在变化的

缺点

梯度消失，因为会有很多输出为0
函数的输出不是以0为中心，回降低权重更新的效率？
sigmoid是指数运算，计算机运行较慢

2.Tanh

在这里插入图片描述

$\frac{e^{x}-e^{-x}} {e^{x}+e^{-x}}= \frac{1}{1+{e}^{-2x}} - 1$

与sigmoid的曲线比较相似与sigmoid相比的优势
在这里插入图片描述

两者都是当输入较大或较小时，输出几乎是平滑的，并且梯地较小，不利于权重的更新。但是tanh的输出间隔为，并且整个函数是以0为中心的
tanh的负输入将被强映射为负，零输入被映射为零
在一般的二元分类中，tanh用于hidden layer，sigmoid用于otput layer

3.ReLU

在这里插入图片描述

$\sigma(x) = \left\{\begin{matrix} max(0, x),x\ge 0 \\ 0,x<0 \end{matrix}\right .$

优点

当输入为正的时候，不存在梯度饱和问题
计算速度快，只存在线性关系

缺点

Dead ReLU。当输入为负数时，ReLU完全失效，正向传播的过程中没有问题，但反向传播的时候，输入为负数的时候，梯度为零，神经元无法激活
ReLU的输出只有0或正数，不是以零为中心的。

4.ReLU的改进

Leaky ReLU

在这里插入图片描述

$\left\{\begin{matrix} x,x>0 \\ \alpha_{i}x,x\le0 \end{matrix}\right .$

Leaky ReLU 通过吧x的非常小的线性分量乘以负输入来调整负值的零梯度问题
有助于扩大ReLU函数范围，a通常为0.01
函数的范围为负无穷至正无穷

ELU

在这里插入图片描述

$\left\{\begin{matrix} x,x>0 \\ \alpha(e^x - 1),x\le0 \end{matrix}\right.$

均值激活接近于零可以是学习更快，因为他们使梯度更接近自然梯度

ELU 通过减少偏置6偏移的影响，是正常梯度更接近于单位自然梯度？从而使均值向零加速学习
ELU在较小的输入下回饱和至负值，从而减少前向传播的变异和信息？

PReLU

在这里插入图片描述

$\left\{\begin{matrix} x,x>0 \\ \alpha_{i}x,x\le0 \end{matrix}\right .$
主要是 $\alpha$ 是可学习的。

在负值域，PReLU的斜率较小，可以避免DeadReLU的问题
PReLU在负值域是线性计算。

5.Softmax

在这里插入图片描述

用于多分类问题的激活函数
在这里插入图片描述

缺点

在零点不可微
负输入的梯度为零，这意味着对于该区域的激活，权重不会在反向传播中更新，会产生用不激活的死亡神经元。

6.Swish

===

$\frac{1}{1+{e}^{-x}}$

7.MAXOUT

由两个Maxout节点组成的maxout层可以很好的近似任何连续函数

8.Softplus

在这里插入图片描述

$f(x) = ln(1+e^x)$

gelu

relu缺乏随机因素，只有0，1
加入激活函数以希望其拥有非线性拟合的能力，同时为了避免过拟合，需要通过加入正则化的方式。
relu和dropout都是乘以 0或者1
GeLu：集合relu（非线性）+droppout（正则化）同时取决于输入自身分布随机选择乘以0/1，在激活中引入了随机正则的思想，根据当前input大于其余inputs的概率进行随机正则化，在mask时依赖输入的数据分布，即x越小越有可能被mask掉，因此服从bernoulli(Φ(x))‘
GELU高斯误差线性单元