激活函数是用来加入非线性因素的,解决线性模型所不能解决的问题。
1 sigmoid函数
函数公式:
缺陷:当输入稍微远离了坐标原点,函数的梯度就变得很小了,几乎为零(软饱和激活函数)。
在反向传播过程中,sigmoid向下传导的梯度包含一个激活函数导数的因子,一旦落入饱和区,导数为0,导致了向底层传播的梯度非常小,称为梯度消失。
函数输出均大于0,不是以0为中心的,这称为偏移现象,后一层的神经元将得到上一层输出的非0均值的信号作为输入,这样会使权重更新效率降低。
2 tanh函数
函数公式:
tanh函数和sigmod函数的曲线是比较相近,这两个函数在输入很大或者很小的时候,输出都几乎平滑,梯度很小,不利于更新权重。但输出均值是0,似的收敛速度比sigmoid快,减少迭代次数。
3 ReLU函数
函数公式:
优点:当输入为正数时,梯度不衰减,不存在梯度消失的问题。
计算速度快很多。
缺点:当输入时负数时,ReLU是完全不被激活的,这表明一旦输入负数,ReLU就会死掉。