机器学习入门（2）——单变量线性回归

最新推荐文章于 2023-04-02 15:19:22 发布

StriveQueen

最新推荐文章于 2023-04-02 15:19:22 发布

阅读量277

点赞数 1

分类专栏：机器学习文章标签：机器学习线性回归代价函数梯度下降

本文链接：https://blog.csdn.net/strivequeen/article/details/107291317

版权

机器学习专栏收录该内容

16 篇文章 0 订阅

订阅专栏

模型描述（Model Representation）
代价函数（Cost Function）
- 代数函数直观理解1
- 代数函数直观理解2
梯度下降（Gradient Descent）
梯度下降的线性回归

模型描述（Model Representation）

h 代表学习算法的解决方案或函数也称为假设（hypothesis）

一种可能的表达方式为：
在这里插入图片描述
因为只含有一个特征/输入变量，因此这样的问题叫作单变量线性回归问题。

代价函数（Cost Function）

我们选择的参数决定了我们得到的直线相对于我们的训练集的准确程度，模型所预测的值与训练集中实际值之间的差距，即建模误差（modeling error）。
我们的目标便是选择出可以使得建模误差的平方和能够最小的模型参数。即使得代价函数最小。
代价函数也被称作平方误差函数，有时也被称为平方误差代价函数。我们之所以要求出误差的平方和，是因为误差平方代价函数，对于大多数问题，特别是回归问题，都是一个合理的选择。

代数函数直观理解1

代数函数直观理解2

如上图，代价函数的样子为等高线图，则可以看出在三维空间中存在一个使得最小的点。

梯度下降（Gradient Descent）

梯度下降是一个用来求函数最小值的算法，我们将使用梯度下降算法来求出代价函数的最小值。

其中α是学习率（learning rate），它决定了我们沿着能让代价函数下降程度最大的方向向下迈出的步子有多大，在批量梯度下降中，我们每一次都同时让所有的参数减去学习速率乘以代价函数的导数。
注：当人们谈到梯度下降时，他们的意思就是同步更新。

若α太小，即学习速率太小，结果就是移动速度很慢的去接近最低点，这样就需要很多步才能到达全局最低点。
若α太大，那么梯度下降法可能会越过最低点，甚至可能无法收敛，下一次迭代又移动了一大步，越过一次，又越过一次，一次次越过最低点，直到发现实际上离最低点越来越远。所以若α太大，会导致无法收敛，甚至发散。

在梯度下降法中，当我们接近局部最低点时，梯度下降法会自动采取更小的幅度，这是因为在局部最低时导数等于零，所以当我们接近局部最低时，导数值会自动变得越来越小，所以梯度下降将自动采取较小的幅度，这就是梯度下降的做法。所以实际上没有必要再另外减小α。