1.梯度下降的主要步骤
大概可以总结为一个设置参数,在不断通过求梯度不断更新参数的过程。
2.梯度下降的tips
(1)调learning rate
我们可以看到Loss的变化
调learning rate的情形与方法
Adagrad:每个参数分开考虑,其中要考虑root mean square
(2)Stochastic Gradient Descent
与Gradient Descent相比,只考虑一个xn,要更新很多次参数,可以看到下降得更快。
(3)Feature Scaling
使每一个feature的scale接近,这样易于更新参数。
3.梯度下降的理论知识
(1)当我们更新参数时,Loss的值不会越来越小;
(2)Formal Derivation:划红色的圆圈,在圆圈内得到最小的Loss值,其中(a,b)是中心点,可以更新参数。
这就是gradient descent
4.梯度下降的限制
会卡在微分值是0,但不是local minima的地方
李宏毅机器学习笔记Day3——梯度下降
最新推荐文章于 2023-03-04 17:33:17 发布