sgd:zh
之后的优化器主要针对 学习率μ进行改进。
momentum:
当一个维度比另一个维度下降地明显更加急促时(经常是局部最优点),朴素 SGD 容易存在收敛极慢的问题。
碰到鞍点。
3 Adagrad:
Adagrad 为每个参数提供自适应的学习率,它可以为频率低的参数每次提供更大更新、为频率高的参数每次提供更小更新。正因为此,它十分适用于处理稀疏数据。
G是一个对角
sgd:zh
之后的优化器主要针对 学习率μ进行改进。
momentum:
当一个维度比另一个维度下降地明显更加急促时(经常是局部最优点),朴素 SGD 容易存在收敛极慢的问题。
碰到鞍点。
3 Adagrad:
Adagrad 为每个参数提供自适应的学习率,它可以为频率低的参数每次提供更大更新、为频率高的参数每次提供更小更新。正因为此,它十分适用于处理稀疏数据。
G是一个对角