1.什么是激活函数(定义)?
首先我们回顾一下神经网络模型,神经网络中的每个神经元节点接受上一层神经元的输出值作为本神经元的输入值,并将输入值传递给下一层,输入层神经元节点会将输入属性值直接传递给下一层(隐层或输出层)。在多层神经网络中,上层节点的输出和下层节点的输入之间具有一个函数关系,这个函数称为激活函数。激活函数(Activation functions)对于人工神经网络 模型去学习、理解非常复杂和非线性的函数来说具有十分重要的作用。
在神经元中理解激活函数:它们将非线性特性引入到我们的网络中。如图1,在神经元中,输入的 inputs 通过加权,求和后,还被作用了一个函数,这个函数就是激活函数。引入激活函数是为了增加神经网络模型的非线性。没有激活函数的每层都相当于矩阵相乘。就算你叠加了若干层之后,无非还是个矩阵相乘罢了。
在完整神经网络模型中理解激活函数:
在构建神经模型中添加激活函数:
2.为什么需要激活函数(作用)?
激活函数是用来加入非线性因素的,解决线性模型所不能解决的问题。
如果不用激活函数,在这种情况下每一层输出都是上层输入的线性函数。容易验证,无论神经网络有多少层,输出都是输入的线性组合,与没有隐藏层效果相当,这种情况就是最原始的感知机(Perceptron)了。因此引入非线性函数作为激活函数,这样深层神经网络就有意义了(不再是输入的线性组合,可以逼近任意函数)。最早的想法是sigmoid函数或者tanh函数,输出有界,很容易充当下一层输入。
3.有哪些激活函数(分类、优缺点)?
激活函数主要分为两大类:
- 饱和:sigmoid,tanh
- 非饱和:relu、Leaky Relu、ELU(指数线性单元)、PReLU(参数化的ReLU)、RReLU(随机ReLU)
sigmoid激活函数(以前最常用) :
优点:1.非线性单调函数 2.提供了“正则化”的效果,将中间特征强制界定在有限范围0~1之间。
缺点:1.在深度神经网络中梯度反向传递时导致梯度爆炸和梯度消失,其中梯度爆炸发生的概率非常小,而梯度消失发生的概率比较大。
sigmoid激活函数的导数:
如果我们初始化神经网络的权值为[0,1] 之间的随机值,由反向传播算法的数学推导可知,梯度从后向前传播时,每传递一层梯度值都会减小为原来的0.25倍,如果神经网络隐层特别多,那么梯度在穿过多层后将变得非常小接近于0,即出现梯度消失现象;当网络权值初始化为 ( 1 , + ∞ ) 区间内的值,则会出现梯度爆炸情况。
2.当输入小于2或者-2时,接受的梯度几乎为0,导致学习速度慢。
3.函数幂运算复杂,训练时间长。
ReLU函数(现在首选):
修正线性单元(Rectified linear unit,ReLU)是神经网络中最常用的激活函数。它保留了 step 函数的生物学启发(只有输入超出阈值时神经元才激活)。
优点:1.收敛速度远快于sigmoid和tanh,计算速度快,只需要判断输入是否大于0
2.产生大的梯度(输入大于0,梯度为1,其他情况为0)
缺点:在0处左右形成了明显的差别。
ReLU目前仍是最常用的activation function,在搭建人工神经网络的时候推荐优先尝试!
Tanh激活函数:
最大梯度为1,有易于表达函数的导数,不会增加模型的复杂性。它解决了Sigmoid函数的不是以0为中心输出问题,然而,梯度消失(gradient vanishing)的问题和幂运算的问题仍然存在。tanh的输出区间是在(-1,1)之间,而且整个函数是以0为中心的。
Leaky Relu函数:
带泄露修正线性单元(Leaky ReLU)函数是经典(以及广泛使用的)的ReLu激活函数的变体,该函数输出对负值输入有很小的坡度。
由于导数总是不为零,这能减少静默神经元的出现,允许基于梯度的学习(虽然会很慢),解决了Relu函数进入负区间后,导致神经元不学习的问题。
优点:
1.Leaky ReLU函数比ReLU函数效果好,但实际中Leaky ReLU并没有ReLU用的多。
2.Leaky ReLU函数类似于ReLU函数,能解决深度神经网络(层数非常多)的“梯度消失”问题,浅层神经网络(三五层那种)才用sigmoid 作为激活函数。
2.它能加快收敛速度。
4.如何选择合适的激活函数?
1)深度学习往往需要大量时间来处理大量数据,模型的收敛速度是尤为重要的。所以,总体上来讲,训练深度学习网络尽量使用以0为中心的数据 (可以经过数据预处理实现) 和zero-centered输出。所以要尽量选择输出具有zero-centered特点的激活函数以加快模型的收敛速度。
2)如果使用 ReLU,那么一定要小心设置 learning rate,而且要注意不要让网络出现很多 “dead” 神经元,如果这个问题不好解决,那么可以试试 Leaky ReLU、PReLU 或者 Maxout.
3)最好不要用 sigmoid,你可以试试 tanh,不过可以预期它的效果会比不上 ReLU 和 Maxout
总体来看,这些激活函数都有自己的优点和缺点,没有一条说法表明哪些就是不行,哪些激活函数就是好的,所有的好坏都要自己去实验中得到。不同的数据不同的场景不同的模型所需要的是不同的激活函数,而我们所需要做的就是优雅的选出那个最合适的为我们所用。