机器学习之线性回归

最新推荐文章于 2024-06-20 19:08:44 发布

zoeybbb

最新推荐文章于 2024-06-20 19:08:44 发布

阅读量189

点赞数

分类专栏：线性回归模型搭建文章标签：机器学习人工智能算法随机梯度下降

本文链接：https://blog.csdn.net/qq_46490027/article/details/112843144

版权

线性回归同时被 2 个专栏收录

1 篇文章 0 订阅

订阅专栏

模型搭建

1 篇文章 0 订阅

订阅专栏

机器学习之线性回归

这里写目录标题

机器学习之线性回归

本文参考吴恩达机器学习网课，以房价预测问题为实例分析，整理成为笔记，如有错误，感谢大家批评指正！

学习目标

- 掌握机器学习中线性回归的相关算法其中包括单变量线性回归、多变量线性回归

- 了解模型构建的过程

- 理解梯度下降算法

线性回归

回归问题属于机器学习中的监督学习部分，监督学习包括：

回归问题
分类问题

单变量线性回归

从模型构建过程入手：

首先准备训练数据集，将特征作为自变量，通过假设函数 $h (x)$ 对输出进行预估得到 $y$ ,与准备的数据集中对应的 $y$ 两者比较通过合适的方式构造代价函数（即Lost Function）。

以预测房价为例，假设评判放假的标准只有一个：房子的大小。我们收集到一批数据分别为房子的尺寸与价格，我们想要根据这批数据判断不同大小房子的价格，以房子的尺寸作为横轴，以房子的价格作为纵轴得到下图：

自然而然的想到根据数据拟合得到一条直线，这样就可以预测不同尺寸对应的价格了。如果我们想要得到最符合上述条件的一条直线就属于线性回归。表示为： $h_\theta(x)=\theta_0+\theta_1x$ 若所提供的数据集，利用直线拟合无法得到最优结果，需要进行非线性回归，即逻辑回归，非线性回归相关内容可以参考我的另一篇博客，这里不再赘述。

损失函数

给定一组 $(\theta_0,\theta_1)$ ，便可得到一个一条直线，无数个参数组合得到无数条直线，那么如何确定最终的拟合结果呢？这就需要引入损失函数（Loss Function）（与上文中提到的代价函数是等价的）

在这里插入图片描述

给定一个假设函数 $h (x)$ 分别计算训练集提供的尺寸所对应的价格对于,每一个 ${x^i}$ 得到 $h(x^i)$ 与提供的 $y^i$ 存在偏差，构造计算两者偏差的函数就得到损失函数，我们选取最优拟合直线的原则就是确定合适的 $\theta_0,\theta_1$ 使得损失函数 $J(\theta_0,\theta_1)$ 最小。
$J(\theta_0,\theta_1)=\frac{1}{2m}\sum_{i=1}^m [h(x^i)-y^i]^2$

梯度下降

构造好损失函数后，又迎来一个关键问题，我们该采用什么方法对假设函数中的参数进行更新呢？这里就要引入梯度下降算法的概念。

我们知道函数的一阶导数表示此刻函数图像的变化方向，我们希望每一次更新参数使得函数 $J(\theta)$ 的值变小，所以利用导数来更新参数变化是可行的。
下图为梯度下降算法的具体公式：在这里插入图片描述
其中， $\alpha$ 为学习率，学习率控制参数每次步进的大小。
一般对参数进行初始化例如 $\theta_0=0,\theta_1=1$ ,对该点求参数 $\theta_1,\theta_0$ 的偏导，利用图片中的公式进行更新，参数应该是同步进行更新的。当我们参数选择不同的初始值，可能会得到不同的局部最小值。如下图所示：
在这里插入图片描述

梯度下降算法使用技巧

1. 设置合适的学习率

为了简化运算，我们将上述假设函数简化为过原点的直线，即 $h_\theta(x)=\theta_1x$ 以此来研究损失函数 $J(\theta)$ 最小化的过程，由于只有一个参数进行更新，上述三维图像变成二维图像，自变量为 $\theta_1$ ,因变量为 $J(\theta_1)$ 的大小。
在这里插入图片描述

如果学习率 $\alpha$ 设置的过小：
梯度下降会变的非常缓慢，从而降低了收敛速度，需要迭代更多的次数。
如果学习率 $\alpha$ 设置的过大：
可能会越过局部最小值，甚至会变的发散。
如上图所示，当位于A点时，利用梯度下降的公式进行更新，如果学习率设置的过大，将会越多最小值达到右侧的某个点，如果这个点的斜率即倒数要比A点更大，那么下一次的步长将会更大，周而复始会得到发散的结果。

2. 进行特征尺度变化

假设有两个特征 $x_1,x_2$ ,若 $x_1$ 变化范围为 $[0, 2000]$ , $x_2$ 变化范围为 $[0, 1]$ ，可以看到两者有很大的差距，利用梯度下降进行同步更新，当 $x_1$ 变化很大时， $x_2$ 变化很小，这样会使得 $J(\theta_1,\theta_2)$ 图像变得畸形，用等高线表示为：
在这里插入图片描述
而我们进行特征缩放后，可以理解为归一化的过程，是的两个特征变化范围接近，上图右侧使得两个特征都限定在 $[0, 1]$ 范围内，这样做的好处是加快收敛速度，减少迭代次数。
注意：特征缩放并不是唯一的，我们可以选择不同的缩放方式，只要不改变原来的变化趋势都可以使用，目的是为了加快在收敛速度，减少迭代次数。

多变量线性回归

在这里插入图片描述
上面研究的一直是利用一个特征预测房价，实际上对于房价的影响是多方面的，房子的新旧、层数、卧室的数目等都会对房价产生影响，如果仍然希望利用直线进行拟合，这就要引入多变量线性回归，假设函数变为： $h_\theta(x)=\theta_0+\theta_1x_1+\theta_2x_2+...+\theta_nx_n$ 这里 $n = 4$ 。多变量线性回归仍然是线性回归，因此寻找最优拟合直线的过程与单变量线性回归一致，我们回顾一样单变量线性回归的研究过程：
在这里插入图片描述