文章目录 5个优化器(1)SGD(2)SGDM(3)Adagrad(4)RMSProp(5)Adam 5个优化器 (1)SGD (2)SGDM 参数改变的方向(调整loss的方向)不仅基于梯度下降方向,还基于上一次的方向 可以避免dradient算为0 ,就没办法往下继续 (3)Adagrad 在梯度较大时减小学习率,在梯度较小时,增大学习率 (4)RMSProp Adagrad中的分母一直在累加,后面学习率会变太小,因此: (5)Adam RMSProp没有考虑为0的位置 Adam即考虑不会到一个梯度为0的地方,又考虑到学习率不会越来越小(太小)