常用激活函数及其优缺点的总结与比较

本文探讨了sigmoid、Tanh、ReLU、LeakyReLU和Softmax等常见神经网络激活函数的特点、优缺点,以及它们在多分类问题中的应用区别。特别强调了梯度消失和神经元死亡问题以及Softmax的归一化特性。
摘要由CSDN通过智能技术生成

1、sigmoid

在这里插入图片描述
在这里插入图片描述

优点:将很大范围内的输入特征值压缩到0~1之间,适用于将预测概率作为输出的模型;
缺点:
1)当输入非常大或非常小的时候,容易导致梯度消失问题
2)输出不是0均值,进而导致后一层神经元将得到上一层输出的非0均值的信号作为输入。随着网络的加深,会改变原始数据的分布趋势,一般是放在最后的输出层中使用。

2、Tanh

在这里插入图片描述
在这里插入图片描述

优点:解决了上述的Sigmoid函数输出不是0均值的问题;
缺点:仍然存在梯度消失问题

3、ReLU

在这里插入图片描述
在这里插入图片描述

优点:
1)解决了梯度消失问题
2)计算和收敛速度都很快,因为只需要判断是否大于0
缺点:
1)与sigmoid一样,不是0均值的
2)ReLU在小于0的时候梯度为零,这样会导致神经元不能更新参数,即神经元死亡问题

4、Leaky ReLU

在这里插入图片描述
在这里插入图片描述

优点:Leaky Relu函数在输入为负值时,给予输入值一个很小的斜率,缓解了Dead Relu问题;
缺点:理论上来说,该函数具有比Relu函数更好的效果,但是大量的实践证明,其效果不稳定,故实际中该函数的应用并不多。

5、Softmax

在这里插入图片描述
在这里插入图片描述

特点:预测结果概率之和等于1,也会存在神经元死亡问题

与sigmoid的比较:
softmax:1)用于单标签的多分类问题,即从多个分类中选取一个正确答案。 Softmax 综合了所有输出值的归一化,因此得到的是不同概率之间的相互关联 。2)各类别概率之和为1 ,也就是说我们加大某一类别的概率必然导致其他类别减小——各类别之间相互关联,是互斥的。
sigmoid:1)用于多标签的多分类问题,可以选取多个标签作为正确答案,它是将任意实数值归一化映射到[0-1]之间,2)各类别概率之和则不一定为1 ,各个输出值依次独立的经过激活函数的映射,某一个类别概率增大可能也伴随另一个类别概率增大——各类别之间相互独立,不互斥。

参考链接:
https://blog.csdn.net/caip12999203000/article/details/127067360

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值