最全最详细的常见激活函数总结（sigmoid、Tanh、ReLU等）及激活函数面试常见问题总结

本文链接：https://blog.csdn.net/neo_lcx/article/details/100122938

常见激活函数

为什么要使用激活函数？
激活函数具有的特性
激活函数的类别

为什么要使用激活函数？

激活函数用来怎加非线性因素的，提高模型拟合能力。如果不存在激活函数，神经网络的每一层的输入都是对前面输入的线性变化，就算把网络加到很深也无法去拟合任意函数的。

激活函数具有的特性

虽然我们常用激活函数不是很多，那是否只有这些函数能作为激活函数呢？我们从神经网络的工作过程中看，激活函数具有什么样的性质能够更好的帮助神经网络的训练。（借鉴Hengkai Guo添加链接描述）

非线性：数，激活函数必须是非线性的。
计算简单：神经元都要经过激活运算的，在随着网络结构越来越庞大、参数量越来越多，激活函数如果计算量小就节约了大量的资源。
${\rm{f}}(x) \approx x$ :在向前传播时，如果参数的初始化是随机量的最小值，神经网络的训练很高效。在训练的时候不会出现输出的幅度随着不断训练发生倍数的增长，是网络更加的稳定，同时也使得梯度更容易回传。
可微：因为神经网络要通过反向传播来跟新参数，如果激活函数不可微，就无法根据损失函数对权重求偏导，也就无法更新权重。传统的激活函数如sigmoid等满足处处可微。对于分段线性函数比如ReLU，只满足几乎处处可微（即仅在有限个点处不可微）。对于SGD算法来说，由于几乎不可能收敛到梯度接近零的位置，有限的不可微点对于优化结果不会有很大影响¹。
非饱和性：（饱和函数有Sigmoid、Tanh等，非饱和函数ReLU等）例如Sigmoid函数求导以后的值很小，两端的值接近为零在反向传播的时候，如果网络的层次过大便会发生梯度消失的问题，使得浅层的参数无法更新。（梯度消失后面会介绍）
单调性：当激活函数单调时，单层网络保证是凸函数。
输出值的范围：当激活函数输出值是有限的时候，基于梯度的优化方法会更加稳定，因为特征的表示受有限权值的影响更显著；当激活函数的输出是无限的时候，模型的训练会更加高效，不过在这种情况小，一般需要更小的Learning Rate²。