人工神经网络中为什么ReLU好过tanh和sigmoid tanh和sigmoid是饱和激活函数,在x不断增大或减小后,y会越来越接近于一个固定值,像sigmoid就会接近0或1,这时梯度就会非常小,难以学习。 而ReLu是非饱和激活函数,大于0的部分始终有不错的梯度,小于0的部分置0也增加了稀疏性,降低过拟合。