8月13日学习笔记 RMSpropAdam优化算法学习率衰减局部最优 RMSprop db较大dw较小 Adam优化算法 算法内容 结合动量和RMSprop 学习率衰减 当开始收敛时,小的学习率能让步伐小一点 衰减公式 decay-rate是衰减率,epoch是代数 局部最优 鞍点:导数为0的点