深度学习(六)激活函数

写在前面:所有关于深度学习的基础知识均为鄙人的笔记分享,很多内容摘自大神们的博客或论文,因时间太长记不清了分别来自哪里。若有侵权,请联系鄙人邮箱min.wenfang@qq.com

一、sigmoid

 

把输入的连续实值“压缩”到0和1之间,Sigmoid激活函数给神经网络引进了概率的概念。它的导数是非零的,并且很容易计算(是其初始输出的函数)。然而,在分类任务中,sigmoid 正逐渐被 Tanh 函数取代作为标准的激活函数,因为后者为奇函数(关于原点对称)

 

 

二、tanh

把输入的连续实值“压缩”到-1和1之间。在分类任务中,双曲正切函数(Tanh)逐渐取代 Sigmoid 函数作为标准的激活函数,其具有很多神经网络所钟爱的特征。它是完全可微分的,反对称,对称中心在原点。为了解决学习缓慢和梯度消失问题,可以使用这个函数的更加平缓的变体(log-log、softsign、symmetrical sigmoid 等等)。

 

三、relu

数学表达式为 f(x)=max(0,x),输入信号<0时,输出都是0;输入信号>0 的情况下,输出等于输入。优点是收敛速度快、计算量小;缺点是实际操作中,如果你的learning rate 很大,那么很有可能你网络中的40%的神经元都”dead”了。因此relu有很多变体,如leaky relu、Prelu、Rrelu等。

sigmoid和tanh的导数只有在0附近的时候有比较好的激活性,在正负饱和区的梯度都接近于0,所以这会造成梯度弥散,而relu函数在大于0的部分梯度为常数,所以不会产生梯度弥散现象。

 

 

3.1 leaky relu

 

3.2 Prelu

Prelu 即Parametric Relu。对于 Leaky ReLU 中的 a,通常都是通过先验知识人工赋值的。

然而可以观察到,损失函数对的导数我们是可以求得的,可不可以将它作为一个参数进行训练呢?

Kaiming He的论文《Delving Deep into Rectifiers: Surpassing Human-Level Performance on ImageNet Classification》指出,不仅可以训练,而且效果更好。原文说使用了Parametric ReLU后,最终效果比不用提高了1.03%。

3.3 Rrelu

Rrelu 即Randomized Relu。Randomized Leaky ReLU 是 leaky ReLU 的random 版本 ( 即随机a)。在训练过程中, 是从一个高斯分布 中 随机出来的,然后在测试过程中进行修正。

 

四、softplus

 

SoftPlus 的导数是连续的、非零的,无处不在,从而防止出现静默神经元。然而,SoftPlus 另一个不同于 ReLU 的地方在于其不对称性,不以零为中心,这兴许会妨碍学习。此外,由于导数常常小于 1,也可能出现梯度消失的问题。

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值