激活函数

激活函数

一、激活函数概述及其作用

    如果没有激活函数,可以证明即使网络再深,也只是输入的线性组合,与隐藏层的深度没有关系。引入激活函数,即非线性函数,增强了网络的非线性表达,获得更强大的学习和拟合能力。

二、常用的激活函数

2.1 Sigmoid

    数学形式:

    几何图像:
    求导之后的形式:

    优点
    可以把数值映射为0-1之间的数。如果z趋向于无穷大的时候,f(z)的取值为1,如果z趋向于无穷小的时候,f(z)的取值为0。
    缺点
    1)在应用于深度神经网络梯度反向传播的过程中,会出现梯度消失的情况。梯度消失和梯度爆炸出现的原因:如上面所示,求导之后的函数为f‘(z),我们可以推出,其最大值为0.25,即当f(z)取值为0.5的时候。因此在反向传播的过程中,通过链式法则更新参数,可能会有非常非常多个小于0.25的值相乘,因此会得到一个趋向于0的数值,因此容易出现梯度消失的情况。梯度爆炸的情况是因为,在反向传播的过程中,不仅会有多个激活函数的导数相乘,还会有多个层的w相乘,如果们我们初始化的w非常大的时候,多个不同层的w相乘,会是一个非常大的数,因此会出现梯度爆照的情况。
    2)计算求解的时候有幂运算,对于规模比较大的网络,会比较耗时

2.2 tanh

    数学形式:

    几何图像:
    求导之后的形式:

    优点
    把数值映射为-1-1之间的数
    缺点
    1)在应用于深度神经网络梯度反向传播的过程中,会出现梯度消失情况。
    2)计算求解的时候有幂运算,对于规模比较大的网络,会比较耗时

2.3 softmax

    数学形式:

    其中ei为第i个神经元输出的值,该函数把该层神经元输出之和控制为1。

2.4 ReLU

    数学形式:

    几何图像:
    求导之后的形式:
    其导数,在大于0的时候,全部权值为1,在小于0 的时候,导数为0.

    优点
    1)解决了梯度消失的问题。
    2)计算速度快,只需要判断输入的x是否大于0即可。
    3)收敛速度快。
    缺点
    1)神经元失活。即若是学习率或者参数初始化设置过大时容易出现。前向传播时,经过该神经元数值为负数,会传递出去0,因此会导致该神经元永远失活。

2.5 Leaky ReLU

    数学形式:

    其中ai取值为(1,+∞),是一个固定值

2.6 PReLU(可以理解为LeakyReLU的一个变体)

    数学形式:

    几何图像:

    其中α在训练的过程中,是一个可学习的参数,在测试阶段,该值就固定下来。当α固定为0.01的时候就是Leaky ReLU

2.7 ELU

    数学形式:

    几何图像:
    导数形式:

    优点是解决了ReLU造成的神经元失活的问题,但是计算量稍大,还不能证明其效果总是由于ReLU。

2.8 SELU

    数学形式:

    SELU即在ELU的基础上加入了系数 λ。

2.9 Swish

    数学形式:

    其中β是一个可训练的参数。其具备无上界有下界、平滑、非单调的特性。

三、参考链接

    1、https://blog.csdn.net/tyhj_sf/article/details/79932893
    2、https://www.cnblogs.com/makefile/p/activation-function.html

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值