激活函数

最新推荐文章于 2024-01-06 10:36:03 发布

WangXu__

最新推荐文章于 2024-01-06 10:36:03 发布

阅读量301

点赞数

分类专栏：激活函数、损失函数、优化器文章标签：激活函数

本文链接：https://blog.csdn.net/study_deep/article/details/96428110

版权

激活函数、损失函数、优化器专栏收录该内容

2 篇文章 0 订阅

订阅专栏

激活函数

一、激活函数概述及其作用

如果没有激活函数，可以证明即使网络再深，也只是输入的线性组合，与隐藏层的深度没有关系。引入激活函数，即非线性函数，增强了网络的非线性表达，获得更强大的学习和拟合能力。

二、常用的激活函数

2.1 Sigmoid

数学形式：

几何图像：

求导之后的形式：

    优点：
    可以把数值映射为0-1之间的数。如果z趋向于无穷大的时候，f(z)的取值为1，如果z趋向于无穷小的时候，f(z)的取值为0。
    缺点：
    1）在应用于深度神经网络梯度反向传播的过程中，会出现梯度消失的情况。梯度消失和梯度爆炸出现的原因：如上面所示，求导之后的函数为f‘(z)，我们可以推出，其最大值为0.25，即当f(z)取值为0.5的时候。因此在反向传播的过程中，通过链式法则更新参数，可能会有非常非常多个小于0.25的值相乘，因此会得到一个趋向于0的数值，因此容易出现梯度消失的情况。梯度爆炸的情况是因为，在反向传播的过程中，不仅会有多个激活函数的导数相乘，还会有多个层的w相乘，如果们我们初始化的w非常大的时候，多个不同层的w相乘，会是一个非常大的数，因此会出现梯度爆照的情况。
    2）计算求解的时候有幂运算，对于规模比较大的网络，会比较耗时

2.2 tanh

数学形式：

几何图像：

求导之后的形式：

    优点：
    把数值映射为-1-1之间的数
    缺点：
    1）在应用于深度神经网络梯度反向传播的过程中，会出现梯度消失情况。
    2）计算求解的时候有幂运算，对于规模比较大的网络，会比较耗时

2.3 softmax

数学形式：

其中ei为第i个神经元输出的值，该函数把该层神经元输出之和控制为1。

2.4 ReLU

数学形式：

几何图像：

求导之后的形式：

其导数，在大于0的时候，全部权值为1，在小于0 的时候，导数为0.

    优点：
    1）解决了梯度消失的问题。
    2）计算速度快，只需要判断输入的x是否大于0即可。
    3）收敛速度快。
    缺点：
    1）神经元失活。即若是学习率或者参数初始化设置过大时容易出现。前向传播时，经过该神经元数值为负数，会传递出去0，因此会导致该神经元永远失活。

2.5 Leaky ReLU

数学形式：