一般情况下,对于正则化(规则化)方法,通常使用batch normalization就可以了,它可以帮助收敛,特别是非常深的网络。如果仍然过拟合,可以增加dropout或一些其他的东西。
关于神经网络参数更新,强烈推荐这篇文章:
An overview of gradient descent optimization algorithms
参考链接:
深度学习最全优化方法总结比较(SGD,Adagrad,Adadelta,Adam,Adamax,Nadam)
一般情况下,对于正则化(规则化)方法,通常使用batch normalization就可以了,它可以帮助收敛,特别是非常深的网络。如果仍然过拟合,可以增加dropout或一些其他的东西。
关于神经网络参数更新,强烈推荐这篇文章:
An overview of gradient descent optimization algorithms
参考链接:
深度学习最全优化方法总结比较(SGD,Adagrad,Adadelta,Adam,Adamax,Nadam)