根据学习Stanford university的cs231n课堂视频,我做了一下总结~
sigmoid
- 原来挺流行,与大脑神经元的运作很类似
- 饱和神经元将使得梯度消失。输入一个绝对值很大的数,其梯度接近于0,通过链式法则后会让梯度流消失,就无法得到反馈
- 是一个非零中心的函数。梯度更新的效率低
- 使用了指数函数,计算代价不低
tanh(x)
双曲正切函数
- 零均值
- 绝对值很大的输入会使梯度消失
ReLU
线性整流函数
根据学习Stanford university的cs231n课堂视频,我做了一下总结~
双曲正切函数
线性整流函数