常用激活函数

香飘飘洗发水

已于 2024-02-05 17:17:41 修改

阅读量1.3k

点赞数 29

分类专栏：机器学习文章标签：机器学习算法人工智能

于 2024-02-05 17:17:09 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Lserm/article/details/136034189

版权

机器学习专栏收录该内容

1 篇文章 0 订阅

订阅专栏

一、Sigmoid函数 /逻辑斯谛回归函数

理想下的激活函数满足条件：

1.单侧饱和，可以避免噪声，截断为0

2.输出值分布在0的两侧

$\sigma = \frac{1}{1+e^{-x}}$

优点

Sigmoid 函数取值范围为（0，1），这可以对输出进行归一化，使其可解释为概率值，非常适合二分类问题中的输出层

缺点

1. 输入的绝对值越来越大，梯度 $\Delta W$ 逐渐接近于0，会发生梯度饱和，链式求导过程中出现梯度消失现象，导致模型无法收敛

$W^{t+1} = W^{t}-u\Delta W^{t}$

2. $x_{i}$ 为神经元输入， $\frac{\partial L}{\partial f }$ 为损失函数，u为学习率

$W_{i}^{t+1}=w_{i}^{t}-ux_{i}\cdot \frac{\partial L}{\partial f}$

各权重w损失函数值相同，不同在于 $x_{i}$ ,它的值取决于Sigmoid，因此取值恒大于0

因此 $ux_{i}\cdot \frac{\partial L}{\partial f}$ 的正负一致，即w更新方向一致

3.sigmoid函数存在复杂的幂运算，存在运算效率问题

w的更新方向相同，则迭代需要走Z型，导致模型收敛速度减慢

二、tanh函数/双曲正切函数

$tanh(x) = \frac{e^{x}-e^{-x}}{e^{x}+e^{-x}}$

优点

tanh值域为（-1，1）能够有效解决sigmoid函数恒大于0，收敛慢的问题

缺点

1.依旧存在梯度饱和问题，会出现梯度消失

2.tanh函数存在复杂的幂运算，存在运算效率问题

三、ReLU函数/线性整流函数

$ReLU(x) = max(0,x)$

优点

1.深度学习常用的激活函数，输入为正值时，梯恒为1，激活函数等于输入值，解决了梯度消失的问题

2.ReLU函数只存在线性关系，计算复杂度小，运算效率高

缺点

1.当ReLU输入为负值时，输出为0，反向传播更新参数时，对应梯度为0，W则得不到更新，此外若学习率u过大，更新的W会成为负值，通过ReLU函数输出为0，导致神经元永久输出为0神经元会出现永久失活。常被称为Dead ReLU问题

$W^{t+1} = W^{t}-u\Delta W^{t}$

2.ReLU输出值为为负,存在梯度更新时，收敛速度慢的问题

四、Leaky ReLU函数

$LeakyReLU(x)=\left\{\begin{matrix} \ x, x>0\\ \alpha x, x\leq 0 \end{matrix}\right.$

优点

1.可以有效解决Dead ReLU问题

$\alpha$ 为一个很小的正数，通常设置为0.01,当输入值小于等于0时，激活函数输出为一个很小的负值，反向传播过程中，输入小于0的部分也可以得到梯度

缺点

1.性能依赖于取得的参数 $\alpha$

$\alpha$ 取值方法：

- 随机Leaky ReLU

$\alpha$ 分布满足均值为0，标准差为1的正态分布，同时引入随机噪声，可以帮助参数跳出局部最优点和鞍点

- Parametric ReLU

将 $\alpha$ 作为学习参数

2.用于深度神经网络时，在反向传播过程中，由于连乘效应可能发生梯度消失

五、ELU激活函数

$ELU(x)=\left\{\begin{matrix} x, x>0\\\alpha(e^{x}-1),x\leq 0 \end{matrix}\right.$

优点

1.满足单侧饱和带来的优势，提高网络的训练速度和稳定性

2.减少梯度爆炸问题，ELU在负输入值时输出的下限。当 x 的值变得非常小（即远小于0）时， $e^{x}\rightarrow 0$ ，因此 $e^{x}-1\rightarrow -1$ ，使得ELU的输出趋近于 $-\alpha$ 。这意味着无论输入值下降到多么低，ELU的输出都会趋于一个常数值 $-\alpha$ ，而不是继续减小，限制了梯度增幅

缺点

1.性能会依赖于参数 $\alpha$ ，通常参数 $\alpha$ =1

2.ReLU及其变种相比，ELU在负输入部分涉及指数运算，这使得它的计算成本相对更高，特别是在前向传播和反向传播过程中。

3.用于深度神经网络时，在反向传播过程中，由于连乘效应可能发生梯度消失

六、Swish激活函数

$\sigma$ 为sigmoid函数， $\beta$ 为可调节参数

$Swish(x)=x\cdot \sigma (\beta\cdot x)$

sigmoid函数起到类似门控单元的作用，Swish激活函数将输入信号现通过门控单元，得到的输出再与输入信号相乘得到最终输出。

门控单元信号大于0时，swish函数激活；门控单元信号小于0时，swish函数失活

优点

1.非单调性的性质，可以提高训练速度，同时能够提高神经网络的准确率

2.负输入值不是完全为0，减少梯度消失的问题

缺点

1.相比于ReLU及其他简单变体相比，运算量更大

2. $\beta$ 参数影响训练效果，同时可能也会发生过拟合

香飘飘洗发水

关注

29
点赞
踩
28

收藏

觉得还不错? 一键收藏
0
评论
常用激活函数

基于视频https://www.bilibili.com/video/BV1Kc411D7uovd_source=69e96389ba24338c4a3b3540c4494f59 结合自己理解整理的常用激活函数
复制链接

扫一扫

专栏目录

香飘飘洗发水 CSDN认证博客专家 CSDN认证企业博客

码龄4年

3: 原创

132万+: 周排名

17万+: 总排名

5419: 访问

: 等级

127: 积分

83: 粉丝

95: 获赞

1: 评论

100: 收藏

私信

关注

热门文章

分类专栏

Linux 2篇
机器学习 1篇

最新评论

Linux(一)
CSDN-Ada助手: 推荐 CS入门技能树：https://edu.csdn.net/skill/gml?utm_source=AI_act_gml
Linux(一)
CSDN-Ada助手: 恭喜你这篇博客进入【CSDN每天最佳新人】榜单，全部的排名请看 https://bbs.csdn.net/topics/618040164。

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。