深度学习之-激活函数总结

最新推荐文章于 2024-06-07 10:42:49 发布

绛洞花主敏明

最新推荐文章于 2024-06-07 10:42:49 发布

阅读量601

点赞数

分类专栏：深度学习

本文链接：https://blog.csdn.net/qq_39852676/article/details/105890746

版权

深度学习专栏收录该内容

52 篇文章 6 订阅

订阅专栏

1、Sigmoid函数

Sigmoid 是常用的非线性的激活函数，它的数学形式如下：

在这里插入图片描述
Sigmoid的几何图像如下：

特点：
它能够把输入的连续实值变换为0和1之间的输出，特别的，如果是非常大的负数，那么输出就是0；如果是非常大的正数，输出就是1.
缺点：
sigmoid函数曾经被使用的很多，不过近年来，用它的人越来越少了。主要是因为它固有的一些缺点。
缺点1：在深度神经网络中梯度反向传递时导致梯度爆炸和梯度消失，其中梯度爆炸发生的概率非常小，而梯度消失发生的概率比较大。首先来看Sigmoid函数的导数，如下图所示：
在这里插入图片描述
如果我们初始化神经网络的权值为 [0,1][0,1][0,1] 之间的随机值，由反向传播算法的数学推导可知，梯度从后向前传播时，每传递一层梯度值都会减小为原来的0.25倍，如果神经网络隐层特别多，那么梯度在穿过多层后将变得非常小接近于0，即出现梯度消失现象；当网络权值初始化为 (1,+∞)(1,+∞)(1,+∞) 区间内的值，则会出现梯度爆炸情况。
详细数学分析见文章：http://neuralnetworksanddeeplearning.com/chap5.html 中文译文：深度神经网络为何很难训练
缺点2：Sigmoid 的 output 不是0均值（即zero-centered）。这是不可取的，因为这会导致后一层的神经元将得到上一层输出的非0均值的信号作为输入。产生的一个结果就是：如x>0, f=wTx+bx>0, \ f= w^Tx+bx>0, f=w T x+b,那么对w求局部梯度则都为正，这样在反向传播的过程中w要么都往正方向更新，要么都往负方向更新，导致有一种捆绑的效果，使得收敛缓慢。当然了，如果按batch去训练，那么那个batch可能得到不同的信号，所以这个问题还是可以缓解一下的。因此，非0均值这个问题虽然会产生一些不好的影响，不过跟上面提到的梯度消失问题相比还是要好很多的。
缺点3：其解析式中含有幂运算，计算机求解时相对来讲比较耗时。对于规模比较大的深度网络，这会较大地增加训练时间。

2、tanh函数

tanh函数解析式：
在这里插入图片描述
tanh函数及其导数的几何图像如下图：

tanh读作Hyperbolic Tangent，它解决了Sigmoid函数的不是zero-centered输出问题，然而，梯度消失（gradient vanishing）的问题和幂运算的问题仍然存在。

3、Relu函数

Relu函数的解析式：
在这里插入图片描述
Relu函数及其导数的图像如下图所示：

ReLU函数其实就是一个取最大值函数，注意这并不是全区间可导的，但是我们可以取sub-gradient，如上图所示。ReLU虽然简单，但却是近几年的重要成果，有以下几大优点：
1）解决了gradient vanishing问题 (在正区间)
2）计算速度非常快，只需要判断输入是否大于0
3）收敛速度远快于sigmoid和tanh

ReLU也有几个需要特别注意的问题：
1）ReLU的输出不是zero-centered
2）Dead ReLU Problem，指的是某些神经元可能永远不会被激活，导致相应的参数永远不能被更新。有两个主要原因可能导致这种情况产生: (1) 非常不幸的参数初始化，这种情况比较少见 (2) learning rate太高导致在训练过程中参数更新太大，不幸使网络进入这种状态。解决方法是可以采用Xavier初始化方法，以及避免将learning rate设置太大或使用adagrad等自动调节learning rate的算法。

尽管存在这两个问题，ReLU目前仍是最常用的activation function，在搭建人工神经网络的时候推荐优先尝试！

4、PReLU函数

函数表达式：
在这里插入图片描述
Leaky Relu函数及其导数的图像如下图所示：
（有同学在评论中反映下图有误，其实没有错误，左半边直线斜率非常接近0，所以看起来像是平的。就不改了，α=0.01\alpha=0.01α=0.01看起来就是这样的。感谢大家提意见 ^ _ ^）

在这里插入图片描述

5、ELU (Exponential Linear Units) 函数

函数表达式：
在这里插入图片描述
函数及其导数的图像如下图所示：

ELU也是为解决ReLU存在的问题而提出，显然，ELU有ReLU的基本所有优点，以及：

不会有Dead ReLU问题
输出的均值接近0，zero-centered

它的一个小问题在于计算量稍大。类似于Leaky ReLU，理论上虽然好于ReLU，但在实际使用中目前并没有好的证据ELU总是优于ReLU。

6、LReLU函数

(Leaky-ReLU)
在这里插入图片描述
其中ai是固定的。i表示不同的通道对应不同的ai.
tensorflow中：tf.nn.leaky_relu(features, alpha=0.2, name=None)

7、SELU函数

在这里插入图片描述
经过该激活函数后使得样本分布自动归一化到0均值和单位方差(自归一化，保证训练过程中梯度不会爆炸或消失，效果比Batch Normalization 要好)
其实就是ELU乘了个lambda，关键在于这个lambda是大于1的。以前relu，prelu，elu这些激活函数，都是在负半轴坡度平缓，这样在activation的方差过大的时候可以让它减小，防止了梯度爆炸，但是正半轴坡度简单的设成了1。而selu的正半轴大于1，在方差过小的的时候可以让它增大，同时防止了梯度消失。这样激活函数就有一个不动点，网络深了以后每一层的输出都是均值为0方差为1。

tensorflow中：tf.nn.selu(features, name=None)
在这里插入图片描述

8、ReLU6函数

ReLU6：Relu在x>0的区域使用x进行线性激活，有可能造成激活后的值太大，影响模型的稳定性，为抵消ReLU激励函数的线性增长部分，可以使用Relu6函数：
在这里插入图片描述

9、Swish函数

在这里插入图片描述

10、hard-Swish函数

hard-Swish：
在这里插入图片描述

11、Mish函数

Mish：
在这里插入图片描述

绛洞花主敏明

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
打赏
0
评论
深度学习之-激活函数总结

1、Sigmoid函数Sigmoid 是常用的非线性的激活函数，它的数学形式如下：Sigmoid的几何图像如下：特点：它能够把输入的连续实值变换为0和1之间的输出，特别的，如果是非常大的负数，那么输出就是0；如果是非常大的正数，输出就是1.缺点：sigmoid函数曾经被使用的很多，不过近年来，用它的人越来越少了。主要是因为它固有的一些缺点。缺点1：在深度神经网络中梯度反向传递时...
复制链接

扫一扫