机器学习基础 - [第一章：单变量线性回归]（6）梯度下降算法（参数学习方法）

最新推荐文章于 2022-05-08 17:32:37 发布

Albert_YuHan

最新推荐文章于 2022-05-08 17:32:37 发布

阅读量235

点赞数

分类专栏：机器学习算法

本文链接：https://blog.csdn.net/duan20140614/article/details/90752464

版权

机器学习算法专栏收录该内容

45 篇文章 0 订阅

订阅专栏

本文详细介绍了梯度下降算法在单变量线性回归中的应用，阐述了核心公式、如何找到代价函数最小值、学习率的影响以及为何固定学习率仍能收敛到局部最优值。内容深入浅出，通过实例解释了梯度下降算法的工作原理。

摘要由CSDN通过智能技术生成

1、梯度下降算法的核心公式

该公式主要由三部分组成：初始迭代值 $\theta_{j}$ 、学习率 $\alpha$ 、以及偏导数 $\frac{\partial J(\theta_{0},\theta_{1})}{\partial \theta_{j}}$ ,注意,在这里 $\theta_{0}$ 和 $\theta_{1}$ 是同时被更新的。

2、梯度下降算法如何得到代价函数 $J(\theta)$ 的最小值？

假设假设函数 $h(\theta)$ 只有一个参数 $\theta_{1}$ ，上图是根据 $\theta_{1}$ 的取值画出的对应损失函数。从图中可以看出，当偏导数为正时， $\theta_{1}$ 的值减小， $J(\theta)$ 向局部最小值靠近，当偏导数为负时， $\theta_{1}$ 的值减增大， $J(\theta)$ 仍然向局部最小值靠近，所以通过梯度下降 $\theta_{1}$ 总能收敛到局部最小值。

3、学习率的取值对梯度下降算法效率的影响

当学习率取不同值时，梯度下降算法的效率会有不同的结果，如图3所示，：
（1）如果 $\alpha$ 的值太小，那么 $\theta_{1}$ 每次的变化非常小，需要经过很多次迭代才能收敛到最小值，算法会非常慢；
（2）如果 $\alpha$ 的值太大，那么 $\theta_{1}$ 每次的变化也会非常大，甚至会发散，无法收敛到最小值。
注意，当 $\theta_{1}$ 收敛到局部最小值时，偏导数为0， $\theta_{1}$ 的值将不再改变。