本篇博客内容主要来自andrew NG的课程。
我们知道,当我们构建神经网络时,会再神经元上接个激活函数,我们下面详细讨论这个话题。
首先介绍四种激活函数,它们分别是 Sigmoid tanh Relu Leaky_Relu
- 上图中右侧的几何图形,从上到下分别对应,我们刚提到的四种激活函数。其中sigmoid最开始用于逻辑回归,我们知道它把输入映射到 0到1之间,我们在选择激活函数时,如果想要输出映射到0-1之间时,比如二分类问题,Lstm中的gate时,可以使用sigmoid,其他情况,基本上tanh都是一个更好的选择, tanh(双曲正切)把输入 映射到-1到1之间 ,它和sigmoid很相似,但选择它做激活函数,通常效果会好很多。
- 但是这两种激活函数有一个共有的缺点,当输入值很大或很小时,函数的梯度会很小,趋于0,导致训练非常缓慢。
- 于是便有了Relu 它的函数形式 g ( z ) = m a x ( 0 , z ) g(z) = max(0,z) g(z)=max(0,z),所以经过Relu后输出值都是大于等于0的,在某些情况我们想让输出取非负值时,它是一个很好的选择,同时结合图形我们可以知道,在输入大于0时,它的梯度始终为1,所有进行梯度下降算法时,训练的非常快。
- 但是relu的左半部分梯度始终为0,虽然不影响我们使用它,但有一种新的激活函数来解决这个问题,Leaky Relu左半部分有一个很小的梯度,使它不为0.
- 目前业界,使用Relu最为常见,但实际场景,你要多尝试多思考。
为什么要使用激活函数?
我们常说的激活函数,其实叫做非线性激活函数。它的目的是对输入做一次非线性变化。
若不适用非线性激活函数,那么无论你的神经网络叠加多少层,No matter how deep it is. 它始终只是对输入做了一次线性变化,跟只有一层是没有区别的。它只能解决线性问题。
而引入非线性变化,目的是为了增强模型的表达能力,能够拟合线性和非线性的复杂问题。
激活函数的导数
我们在做梯度下降时,要先求出关于每个参数的梯度,下面分别给出这四种激活函数的导数形式
1、 Sigmoid :
a
′
=
a
(
1
−
a
)
a' =a(1-a)
a′=a(1−a)
2、tanh :
a
′
=
1
−
a
2
a' =1-a^2
a′=1−a2
relu 和 Leaky Relu看下图