[AI 笔记] 激活函数


参考资料:
CS231n课程

神经元

下图是神经网络中的单个神经元。
它有输入、权值、线性函数,以及一个激活函数 f。
神经元的输入通过线性函数得到一个值,再通过激活函数产生输出。激活函数可以理解为为神经网络引入了非线性。
在这里插入图片描述

Sigmoid

Sigmoid函数是较老的激活函数,形如下图。
在这里插入图片描述
由于它在负值区的远处趋近于 0,在正值区的远处趋近于 1。所以它在这两个地方的本地梯度为0,根据链式法则,它往回传的梯度都为零,所以梯度流中断了,即梯度消失,这两个地方称作饱和区。由于梯度消失,所以它下游的神经元就得不到更新。

另外,Sigmoid函数不以零值为中心。其输出一直为正,对于上游神经元而言,输入一直为正,且本地梯度为正,所以其回传的梯度的符号与其上游梯度同号。对于 w 而言,其跟新方向只能在一三象限,如下图所示,对于第四象限的优化方向而言,效率较低。
在这里插入图片描述
最后,Sigmoid函数的计算设计exp,所以计算代价是比较大的。

tanh

tanh 解决了Sigmod 非零均值的问题,但其仍然存在饱和区,存在梯度消失。
在这里插入图片描述

ReLu

ReLu激活函数是比较流行的激活函数,其表达式为 f(x) = max(0, x)。如下图所示。

在上一篇对BP算法的讨论中,max门实现的是梯度路由的功能,当ReLu的输入大于 0 时,梯度可以正常往回传递,但其输入小于 0 时,梯度为零。
在这里插入图片描述
ReLu函数的特点:
1、对于正半轴而言,没有饱和区域,不会梯度消失,但负半轴仍存在
2、由于ReLu函数十分简单,其计算效率很高
3、收敛速度快
4、更符合生物原理
5、非零均值
6、负半轴梯度消失

Leaky ReLu 及 PReLu

ReLu 的衍生,不存在饱和区。
在这里插入图片描述

ELU

在这里插入图片描述

总结

在激活函数中,还是 ReLu 的实用性最高。
在这里插入图片描述

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值