- 调整学习率
太大会造成无法到达全局最小点
太小会造成收敛速度过慢
解决方法——自动调整学习率:
随着epochs的增加而减小,给不同的参数不同的学习率
Adagrad
最优的step是一次微分/二次微分,这里考虑了二次微分 - 随机梯度下降(Stochastic Gradient Decent)
Dradient Decent:用所有参数一次update所有参数
Stochastic Gradient Decent:每一次取其中的一个样本,更新一次参数
优点:收敛速度比较快 - 特征归一化(Feature Scaling)
把不同特征的分布的range缩放成一样,如果特征的分布range 不同,那么梯度下降可能不能到达全局最低点
梯度下降需要注意的地方
最新推荐文章于 2023-09-21 01:46:12 发布