强烈推荐链接这篇文章,通俗易懂
https://www.jianshu.com/p/c7e642877b0e
梯度下降法
- 不是一个机器学习算法
- 是一种基于搜索的最优化方法
- 作用:最小化一个损失函数
- 梯度上升法:最大化一个效用函数
梯度下降法
- η \eta η称为学习率(learning rate)
- η \eta η的取值影响获得最优解的速度
- η \eta η取值不合适,甚至得不到最优解
- η \eta η是梯度下降法的一个超参数
- η \eta η 太小,影响收敛学习速度
- η \eta η太大,甚至导致不能收敛
- 并不是所有函数都有唯一的极值点
- 解决方案:
多次运行,随机化初始点
梯度下降法的初始点也是一个超参数
- 解决方案:
在线性回归中使用梯度下降法
目标:使 ∑ i = 1 m ( y i − y ^ i ) 2 \sum_{i=1}^m(y^i -\hat{y}^i)^2 ∑i=1