神经网络，深度学习，深度强化学习必备知识之激活函数——理解与总结

易烊千蝈

已于 2022-03-22 09:15:34 修改

阅读量1.2k

点赞数 5

分类专栏： Python相关人工智能算法文章标签：激活函数人工智能神经网络强化学习深度强化学习

于 2022-03-22 09:13:27 首次发布

本文链接：https://blog.csdn.net/weixin_39490300/article/details/123651570

版权

算法同时被 3 个专栏收录

64 篇文章 10 订阅

订阅专栏

人工智能

59 篇文章 4 订阅

订阅专栏

Python相关

46 篇文章 3 订阅

订阅专栏

文章目录

什么是激活函数？
sigmod
tanh
Relu

听说点进蝈仔帖子的都喜欢点赞加关注~~
老规矩，官网附上，建议大佬直接看官网
https://github.com/pytorch
https://pytorch.org/docs/stable/nn.html#non-linear-activations-weighted-sum-nonlinearity
鸣谢：
https://zhuanlan.zhihu.com/p/73214810
https://www.jiqizhixin.com/graph/technologies/1697e627-30e7-48a6-b799-39e2338ffab5
在这里插入图片描述

什么是激活函数？

首先要了解神经网络的基本模型。
在这里插入图片描述
亦或者是这样的：

神经网络中的每个神经元节点接受上一层神经元的输出值作为本神经元的输入值，并将输入值传递给下一层，输入层神经元节点会将输入属性值直接传递给下一层（隐层或输出层）。在多层神经网络中，上层节点的输出和下层节点的输入之间具有一个函数关系，这个函数称为激活函数（又称激励函数）。

激活函数的用途（为什么需要激活函数）？
如果不用激励函数（其实相当于激励函数是f(x) = x），在这种情况下你每一层节点的输入都是上层输出的线性函数，很容易验证，无论你神经网络有多少层，输出都是输入的线性组合，与没有隐藏层效果相当，这种情况就是最原始的感知机（Perceptron）了，那么网络的逼近能力就相当有限。正因为上面的原因，我们决定引入非线性函数作为激励函数，这样深层神经网络表达能力就更加强大（不再是输入的线性组合，而是几乎可以逼近任意函数）。
有哪些激活函数，都有什么性质和特点？
早期研究神经网络主要采用sigmoid函数或者tanh函数，输出有界，很容易充当下一层的输入。近些年Relu函数及其改进型（如Leaky-ReLU、P-ReLU、R-ReLU等）在多层神经网络中应用比较多。下面我们来总结下这些激活函数：

注：下图来自reddit
在这里插入图片描述

其他tips：

神经网络为什么需要激活函数：首先数据的分布绝大多数是非线性的，而一般神经网络的计算是线性的，引入激活函数，是在神经网络中引入非线性，强化网络的学习能力。所以激活函数的最大特点就是非线性。
不同的激活函数，根据其特点，应用也不同。Sigmoid和tanh的特点是将输出限制在(0,1)和(-1,1)之间，说明Sigmoid和tanh适合做概率值的处理，例如LSTM中的各种门；而ReLU就不行，因为ReLU无最大值限制，可能会出现很大值。同样，根据ReLU的特征，Relu适合用于深层网络的训练，而Sigmoid和tanh则不行，因为它们会出现梯度消失。
在使用relu的网络中，是否还存在梯度消失的问题？梯度衰减因子包括激活函数导数，此外，还有多个权重连乘也会影响。。。梯度消失只是表面说法，按照这样理解，底层使用非常大的学习率，或者人工添加梯度噪音，原则上也能回避，有不少论文这样试了，然而目前来看，有用，但没太大的用处。

sigmod

在这里插入图片描述

sigmoid函数也称为Logistic函数，因为Sigmoid函数可以从Logistic回归（LR）中推理得到，也是LR模型指定的激活函数。

Sigmoid作为激活函数的特点：

优点：平滑、易于求导。

缺点：

激活函数计算量大（在正向传播和反向传播中都包含幂运算和除法）；
反向传播求误差梯度时，求导涉及除法；
Sigmoid导数取值范围是[0, 0.25]，由于神经网络反向传播时的“链式反应”，很容易就会出现梯度消失的情况。例如对于一个10层的网络，根据[公式]，第10层的误差相对第一层卷积的参数[公式]的梯度将是一个非常小的值，这就是所谓的“梯度消失”。
Sigmoid的输出不是0均值（即zero-centered）；这会导致后一层的神经元将得到上一层输出的非0均值的信号作为输入，随着网络的加深，会改变数据的原始分布。

>>> m = nn.Sigmoid()
>>> input = torch.randn(2)
>>> output = m(input)

tanh

在这里插入图片描述

tanh读作Hyperbolic Tangent，它解决了Sigmoid函数的不是zero-centered输出问题，然而，梯度消失（gradient vanishing）的问题和幂运算的问题仍然存在。

>>> m = nn.Tanh()
>>> input = torch.randn(2)
>>> output = m(input)

Relu

在这里插入图片描述

在这里插入图片描述
ReLU函数其实就是一个取最大值函数，注意这并不是全区间可导的，但是我们可以取sub-gradient，如上图所示。ReLU虽然简单，但却是近几年的重要成果，有以下几大优点：
1）解决了gradient vanishing问题 (在正区间)
2）计算速度非常快，只需要判断输入是否大于0
3）收敛速度远快于sigmoid和tanh

ReLU也有几个需要特别注意的问题：
1）ReLU的输出不是zero-centered
2）Dead ReLU Problem，指的是某些神经元可能永远不会被激活，导致相应的参数永远不能被更新。有两个主要原因可能导致这种情况产生: (1) 非常不幸的参数初始化，这种情况比较少见 (2) learning rate太高导致在训练过程中参数更新太大，不幸使网络进入这种状态。解决方法是可以采用Xavier初始化方法，以及避免将learning rate设置太大或使用adagrad等自动调节learning rate的算法。

ReLU作为激活函数的特点：

相比Sigmoid和tanh，ReLU摒弃了复杂的计算，提高了运算速度。
解决了梯度消失问题，收敛速度快于Sigmoid和tanh函数，但要防范ReLU的梯度爆炸
容易得到更好的模型，但也要防止训练中出现模型‘Dead’情况。

  >>> m = nn.ReLU()
  >>> input = torch.randn(2)
  >>> output = m(input)


An implementation of CReLU - https://arxiv.org/abs/1603.05201

  >>> m = nn.ReLU()
  >>> input = torch.randn(2).unsqueeze(0)
  >>> output = torch.cat((m(input),m(-input)))