神经网络的激活函数都采用非线性函数,如阈值型或S型,为何不采用线性激活函数?
谷歌人工智能写作项目:神经网络伪原创
为什么引入非线性激活函数?
第一,对于神经网络来说,网络的每一层相当于f(wx+b)=f(w'x),对于线性函数,其实相当于f(x)=x,那么在线性激活函数下,每一层相当于用一个矩阵去乘以x,那么多层就是反复的用矩阵去乘以输入写作猫。
根据矩阵的乘法法则,多个矩阵相乘得到一个大矩阵。所以线性激励函数下,多层网络与一层网络相当。如,两层的网络f(W1*f(W2x))=W1W2x=Wx。第二,非线性变换是深度学习有效的原因之一。
原因在于非线性相当于对空间进行变换,变换完成后相当于对问题空间进行简化,原来线性不可解的问题现在变得可以解了。 下图可以很好解释这个问题,左图用一根线是无法划分的。
经过一系列变换后,就变成线性可解的问题了。
如果不用激励函数(其实相当于激励函数是f(x) = x),在这种情况下你每一层输出都是上层输入的线性函数,很容易验证,无论你神经网络有多少层,输出都是输入的线性组合,与没有隐藏层效果相当,这种情况就是最原始的感知机(Perceptron&#