1.为什么要用激活函数
是为了引入非线性因素,具体请见 神经网络激励函数的作用是什么?有没有形象的解释? - lee philip的回答 - 知乎
2.常见激活函数及其优缺点(同学总结的,很不错)
3.激活函数一般具有哪些性质?(具体请参考https://www.zhihu.com/question/59031444/answer/177786603)
(1)非线性:
当激活函数是线性的,一个两层的神经网络就可以基本上逼近所有的函数。但如果激活函数是恒等激活函数的时候,即f(x)=x,就不满足这个性质,而且如果MLP使用的是恒等激活函数,那么其实整个网络跟单层神经网络是等价的;
(2)可微性:
当优化方法是基于梯度的时候,就体现了该性质;
(3)单调性:
当激活函数是单调的时候,单层网络能够保证是凸函数;
(4)f(x)≈x:
当激活函数满足这个性质的时候,如果参数的初始化是随机的较小值,那么神经网络的训练将会很高效;如果不满足这个性质,那么就需要详细地去设置初始值;
(5)输出值的范围:
当激活函数输出值是有限的时候,基于梯度的优化方法会更加稳定,因为特征的表示受有限权值的影响更显著;当激活函数的输出是无限的时候,模型的训练会更加高效,不过在这种情况小,一般需要更小的Learning Rate。4.如何理解ReLU activation function?