sigmoid函数
tf.nn.sigmoid(x)
f(x)=1/(1+exp(-x))
特点:容易造成梯度消失,输出非0均值,收敛慢,幂运算复杂,训练时间长
深层神经网络一般不再使用sigmoid函数,因为它的导数处于0到0.25的区间,而深层神经网络的链式法则会导致多个这样的导数值相乘,从而出现一个极小的梯度,这就是梯度消失,使得参数无法继续更新
tanh函数
f(x)=[1-exp(-2x)]/[1+exp(-2x)]
特点:输出是0均值,容易造成梯度消失,幂运算复杂,训练时间长
relu函数
几乎是最常用的激活函数
优点:解决了正区间梯度消失问题,只需判断输入是否大于
0,计算速度快,收敛速度远快于sigmoid和tanh
缺点:输出非0均值,收敛慢,神经元死亡问题,有些神经元可能永远不会被激活,导致相应的参数无法被更新
leaky relu函数