机器学习第二章——单变量线性回归

最新推荐文章于 2024-02-15 20:49:06 发布

倚剑笑紅尘

最新推荐文章于 2024-02-15 20:49:06 发布

阅读量165

点赞数

分类专栏：机器学习机器学习文章标签：机器学习

本文链接：https://blog.csdn.net/qq_36782366/article/details/89016986

版权

机器学习同时被 2 个专栏收录

32 篇文章 1 订阅

订阅专栏

机器学习

29 篇文章 1 订阅

订阅专栏

假设函数：

在给定训练集的情况下，学习函数h：X→Y，使得h（x）是y的相应值的“好”预测器。由于历史原因，这个函数h被称为假设。

通过输入住房面积 x，通过学习好的函数，输出房子的估价。

一种可能的表达方式为： $h_{\theta}(x) = \theta_{0} + \theta_{1}x$ ，因为只含有一个特征/输入变量，因此这样的问题叫作单变量线性回归问题。

代价函数：

代价函数是线性回归中的一个应用，在线性回归中，要解决的一个问题就是最小化问题。

假设在一元线性回归中，在一个训练集中，我们需要找到一条直线能和该训练集中的点最接近。假设直线方程为 $h_{\theta}(x) = \theta_{0} + \theta_{1}x$

如何选择 $\theta_{0}$ 、 $\theta_{1}$ ，使得 $h_{\theta}(x)$ 更接近于训练集 (x,y) ？

上述问题可以转换为求 $\rm{CostFunction} = \rm{F}({\theta_{0}},{\theta_{1}}) = \frac{1}{2m}\sum_{i = 1}^{m} (h_{\theta}(x^{(i)})-y^{(i)})^2$ 求最小值 $\min_{{\theta_{0}} {\theta_{1}}} \rm{F}({\theta_{0},{\theta_{1}})}$

梯度下降：

梯度下降的主要思想：

初始化 ${\theta_{0}}$ 和 ${\theta_{1}}$ , ${\theta_{0}}$ = 0 , ${\theta_{1}}$ = 0
不断的改变 ${\theta_{0}}$ 和 ${\theta_{1}}$ 值，不断减少 $F({\theta_{0}},{\theta_{1}})$ 直至达到最小值（或者局部最小）。

想象成下山，如何下山的速度最快？这里涉及到了下山的速度，即步长。

有趣的是换旁边一个点，下山，找到的最优解可能就是另一个了。这也是梯度下降的一个特点。它会找到所有的局部最优解出来。

梯度下降算法，不断更新：

$\begin{align*} \rm{temp}0 &:= {\theta_{0}} - \alpha * \frac{\partial }{\partial {\theta_{0}}}\rm{F}({\theta_{0}},{\theta_{1}}) \\ \rm{temp}1 &:= {\theta_{1}} - \alpha * \frac{\partial }{\partial {\theta_{1}}}\rm{F}({\theta_{0}},{\theta_{1}}) \\ {\theta_{0}} &:= \rm{temp}0 \\ {\theta_{1}} &:= \rm{temp}1 \\ \end{align*}$

直到收敛。注意 ${\theta_{0}}$ 和 ${\theta_{1}}$ 值要同时更新，切记不要求一次导更新一次！

$\alpha$ 被称作为学习速率。

如果 $\alpha$ 被设置的很小，需要很多次循环才能到底最低点。如果 $\alpha$ 被设置的很大，来来回回可能就会离最低点越来越远，会导致无法收敛，甚至发散。

当快要到最低点的时候，梯度下降会越来越慢，因为 $\frac{\partial }{\partial {\theta}}$ 越来越小。

回顾一下，在梯度下降法中，当我们接近局部最低点时，梯度下降法会自动采取更小的幅度，这是因为当我们接近局部最低点时，很显然在局部最低时导数等于零，所以当我们接近局部最低时，导数值会自动变得越来越小，所以梯度下降将自动采取较小的幅度，这就是梯度下降的做法。所以实际上没有必要再另外减小 $\alpha$ 。

梯度的一些数学理解:

函数在某一点处的方向导数在其梯度方向上达到最大值，此最大值即梯度的模数。

这就是说，沿梯度方向，函数值增加最快。同样可知，方向导数的最小值在梯度的相反方向取得，此最小值为最大值的相反数，从而沿梯度相反方向函数值的减少最快。

梯度下降的线性回归

梯度下降是很常用的算法，它不仅被用在线性回归上和线性回归模型、平方误差代价函数。我们还可以将梯度下降和代价函数结合。运用梯度下降算法，将其应用于具体的拟合直线的线性回归算法里。

梯度下降算法和线性回归算法比较如图：

对我们之前的线性回归问题运用梯度下降法，关键在于求出代价函数的导数，即：

$\begin{align*}\frac{\partial }{\partial {\theta_{j}}}\rm{J}({\theta_{0}},{\theta_{1}}) & = \frac{\partial }{\partial {\theta_{j}}} \frac{1}{2m}\sum_{i = 1}^{m} (h_{\theta}(x^{(i)})-y^{(i)})^2\\\end{align*}$

令 j = 0,则有

$\begin{align*} \frac{\partial }{\partial {\theta_{0}}}\rm{F}({\theta_{0}},{\theta_{1}}) &= \frac{1}{m} \sum_{i = 1}^{m} u \frac{\partial u }{\partial {\theta_{0}}} \\ &= \frac{1}{m} \sum_{i = 1}^{m}(\theta_{0} + \theta_{1}x^{(i)} - y^{(i)}) = \frac{1}{m} \sum_{i = 1}^{m}(h_{\theta}(x^{(i)}) - y^{(i)}) \\ \end{align*}$

令 j = 1,则有

$\begin{align*} \frac{\partial }{\partial {\theta_{1}}}\rm{F}({\theta_{0}},{\theta_{1}}) &= \frac{1}{m} \sum_{i = 1}^{m} u \frac{\partial u }{\partial {\theta_{1}}}\\ &= \frac{1}{m} \sum_{i = 1}^{m}(\theta_{0} + \theta_{1}x^{(i)} - y^{(i)}) * x^{(i)} = \frac{1}{m} \sum_{i = 1}^{m}(h_{\theta}(x^{(i)}) - y^{(i)}) * x^{(i)} \\ \end{align*}$

则算法改成：

$\begin{align*} \rm{temp}0 &:= {\theta_{0}} - \alpha * \frac{\partial }{\partial {\theta_{0}}}\rm{F}({\theta_{0}},{\theta_{1}}) = {\theta_{0}} - \alpha * \frac{1}{m} \sum_{i = 1}^{m}(h_{\theta}(x^{(i)}) - y^{(i)}) \\ \rm{temp}1 &:= {\theta_{1}} - \alpha * \frac{\partial }{\partial {\theta_{1}}}\rm{F}({\theta_{0}},{\theta_{1}}) = {\theta_{1}} - \alpha * \frac{1}{m} \sum_{i = 1}^{m}(h_{\theta}(x^{(i)}) - y^{(i)}) * x^{(i)} \\ {\theta_{0}} &:= \rm{temp}0 \\ {\theta_{1}} &:= \rm{temp}1 \\ \end{align*}$