常见激活函数总结

激活函数

1.sigmoid

在这里插入图片描述

f ( x ) = 1 1 + e − x f(x)=\frac{1}{1+{e}^{-x}} f(x)=1+ex1

优点
  • 输出0-1,相当于为每个神经元都做了归一化,用于将预测概率作为输出的模型是比较合适的,因为是0 - 1
  • 梯度平滑,避免产生“跳跃”输出值
  • 可微
  • 又明确的预测,非常接近0或1,看函数就知道,只有x在-5至5之间才是在变化的
缺点
  • 梯度消失,因为会有很多输出为0
  • 函数的输出不是以0为中心,回降低权重更新的效率?
  • sigmoid是指数运算,计算机运行较慢

2.Tanh

在这里插入图片描述

f ( x ) = t a n h ( x ) = e x − e − x e x + e − x = 1 1 + e − 2 x − 1 f(x)=tanh(x)= \frac{e^{x}-e^{-x}} {e^{x}+e^{-x}}= \frac{1}{1+{e}^{-2x}} - 1 f(x)=tanh(x)=ex+exexex=1+e2x11

与sigmoid的曲线比较相似与sigmoid相比的优势
在这里插入图片描述

  • 两者都是当输入较大或较小时,输出几乎是平滑的,并且梯地较小,不利于权重的更新。但是tanh的输出间隔为,并且整个函数是以0为中心的
  • tanh的负输入将被强映射为负,零输入被映射为零
  • 在一般的二元分类中,tanh用于hidden layer,sigmoid用于otput layer

3.ReLU

在这里插入图片描述

σ ( x ) = { m a x ( 0 , x ) , x ≥ 0 0 , x < 0 \sigma(x) = \left\{\begin{matrix} max(0, x),x\ge 0 \\ 0,x<0 \end{matrix}\right . σ(x)={max(0,x),x00,x<0

优点
  • 当输入为正的时候,不存在梯度饱和问题
  • 计算速度快,只存在线性关系
缺点
  • Dead ReLU。当输入为负数时,ReLU完全失效,正向传播的过程中没有问题,但反向传播的时候,输入为负数的时候,梯度为零,神经元无法激活
  • ReLU的输出只有0或正数,不是以零为中心的。

4.ReLU的改进

Leaky ReLU

在这里插入图片描述

f ( x ) = { x , x > 0 α i x , x ≤ 0 f(x) = \left\{\begin{matrix} x,x>0 \\ \alpha_{i}x,x\le0 \end{matrix}\right . f(x)={x,x>0αix,x0

  • Leaky ReLU 通过吧x的非常小的线性分量乘以负输入来调整负值的零梯度问题
  • 有助于扩大ReLU函数范围,a通常为0.01
  • 函数的范围为负无穷至正无穷
ELU

在这里插入图片描述

g ( x ) = E L U ( x ) { x , x > 0 α ( e x − 1 ) , x ≤ 0 g(x) =ELU(x) \left\{\begin{matrix} x,x>0 \\ \alpha(e^x - 1),x\le0 \end{matrix}\right. g(x)=ELU(x){x,x>0α(ex1),x0

均值激活接近于零可以是学习更快,因为他们使梯度更接近自然梯度

  • ELU 通过减少偏置6偏移的影响,是正常梯度更接近于单位自然梯度?从而使均值向零加速学习
  • ELU在较小的输入下回饱和至负值,从而减少前向传播的变异和信息?
PReLU

在这里插入图片描述

f ( x ) = { x , x > 0 α i x , x ≤ 0 f(x) = \left\{\begin{matrix} x,x>0 \\ \alpha_{i}x,x\le0 \end{matrix}\right . f(x)={x,x>0αix,x0
主要是 α \alpha α是可学习的。

  • 在负值域,PReLU的斜率较小,可以避免DeadReLU的问题
  • PReLU在负值域是线性计算。

5.Softmax

在这里插入图片描述

用于多分类问题的激活函数
在这里插入图片描述

缺点

  • 在零点不可微
  • 负输入的梯度为零,这意味着对于该区域的激活,权重不会在反向传播中更新,会产生用不激活的死亡神经元。

6.Swish

===

y = x ∗ s i g m o i d ( x ) = x ∗ 1 1 + e − x y = x* sigmoid(x)= x* \frac{1}{1+{e}^{-x}} y=xsigmoid(x)=x1+ex1

7.MAXOUT

由两个Maxout节点组成的maxout层可以很好的近似任何连续函数

8.Softplus

在这里插入图片描述

f ( x ) = l n ( 1 + e x ) f(x) = ln(1+e^x) f(x)=ln(1+ex)

gelu

relu缺乏随机因素,只有0,1
加入激活函数以希望其拥有非线性拟合的能力,同时为了避免过拟合,需要通过加入正则化的方式。
relu和dropout都是乘以 0或者1
GeLu:集合relu(非线性)+droppout(正则化) 同时取决于输入自身分布随机选择乘以0/1,在激活中引入了随机正则的思想,根据当前input大于其余inputs的概率进行随机正则化,在mask时依赖输入的数据分布,即x越小越有可能被mask掉,因此服从bernoulli(Φ(x))‘
GELU高斯误差线性单元

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值