(1)防止过拟合。Relu会使一部分神经元的输出为0,这样就造成了网络的稀疏性,并且减少了参数的相互依存关系,缓解了过拟合问题的发生。
(2)可以实现深层网络的训练。对于深层网络,sigmoid函数反向传播时,很容易就会出现梯度消失的情况,在sigmoid接近饱和区时,变换太缓慢,导数趋于0,这种情况会造成信息丢失,从而无法完成深层网络的训练。
(3)计算量小,加速网络的训练。采用tanh、sigmoid等函数,计算激活函数时,指数运算计算量大,反向传播求误差梯度时,求导涉及除法,计算量相对大,而采用Relu激活函数,整个过程的计算量节省很多。