梯度下降需要注意的地方

最新推荐文章于 2023-09-21 01:46:12 发布

「已注销」

最新推荐文章于 2023-09-21 01:46:12 发布

阅读量554

点赞数

文章标签：深度学习

本文链接：https://blog.csdn.net/oXooQo/article/details/105134253

版权

调整学习率
太大会造成无法到达全局最小点
太小会造成收敛速度过慢
解决方法——自动调整学习率：
随着epochs的增加而减小，给不同的参数不同的学习率
Adagrad

最优的step是一次微分/二次微分，这里考虑了二次微分
随机梯度下降（Stochastic Gradient Decent）
Dradient Decent：用所有参数一次update所有参数
Stochastic Gradient Decent：每一次取其中的一个样本，更新一次参数
优点：收敛速度比较快
特征归一化（Feature Scaling）
把不同特征的分布的range缩放成一样，如果特征的分布range 不同，那么梯度下降可能不能到达全局最低点