强烈推荐链接这篇文章,通俗易懂
https://www.jianshu.com/p/c7e642877b0e
梯度下降法
- 不是一个机器学习算法
- 是一种基于搜索的最优化方法
- 作用:最小化一个损失函数
- 梯度上升法:最大化一个效用函数
梯度下降法


- η \eta η称为学习率(learning rate)
- η \eta η的取值影响获得最优解的速度
- η \eta η取值不合适,甚至得不到最优解
- η \eta η是梯度下降法的一个超参数
- η \eta η 太小,影响收敛学习速度

- η \eta η太大,甚至导致不能收敛

- 并不是所有函数都有唯一的极值点
- 解决方案:
多次运行,随机化初始点
梯度下降法的初始点也是一个超参数
- 解决方案:
在线性回归中使用梯度下降法
目标:使 ∑ i = 1 m ( y i − y ^ i ) 2 \sum_{i=1}^m(y^i -\hat{y}^i)^2 ∑i=1

梯度下降法是优化损失函数的一种方法,用于最小化损失。它涉及到学习率的选择,过大会导致不收敛,过小会影响收敛速度。在线性回归中,梯度下降法有唯一最优解,可以通过批量梯度下降法实现。scikit_learn库提供了SGD实现。通过调试梯度,可以优化算法。此外,随机梯度下降和小批量梯度下降是提高效率的常用策略。
最低0.47元/天 解锁文章
2533

被折叠的 条评论
为什么被折叠?



