8.机器学习从线性回归开始——不容小觑的线性回归算法

最新推荐文章于 2024-10-13 17:50:27 发布

隐零

最新推荐文章于 2024-10-13 17:50:27 发布

阅读量1k

点赞数 27

分类专栏：从零基础到AI算法工程师文章标签：机器学习线性回归人工智能

本文链接：https://blog.csdn.net/dxyl632956/article/details/142180541

版权

从零基础到AI算法工程师专栏收录该内容

13 篇文章 3 订阅

订阅专栏

引言

机器学习是让计算机通过数据进行自我学习和改进的技术，而线性回归是其中一种基本的监督学习算法，用于预测一个变量（因变量）与另一个或多个变量（自变量）之间的关系。在线性回归中，我们假设因变量与自变量之间存在线性关系，通过拟合数据来找到最佳的线性模型。

在人工智能领域中，学习线性回归非常重要，因为它是许多更复杂算法的基础。线性回归不仅能帮助我们理解数据中的基本关系，还能用于预测、分析趋势和优化决策。掌握线性回归能够为理解和应用更复杂的机器学习模型打下坚实的基础，使得我们能够更有效地处理实际问题。线性回归作为最基础和最简单的机器学习算法，也是我们最应该优先学习的。

通过阅读本篇博客，你可以：

1.掌握线性回归的概念

2.知晓简单线性回归的原理

3.了解多元线性回归

一、线性回归的概念

线性回归是机器学习中的一种有监督学习算法，用于探讨一个或多个自变量(independent variables)(预测变量)与因变量(dependent variable)(需要预测的值)之间的线性关系。通过构建一个线性方程，线性回归旨在找到最佳拟合的直线，以便能够根据已知自变量的值预测因变量的值。线性回归模型的主要目标是最小化预测值与实际观测值之间的误差，从而提高模型的准确性。

需要预测的值：即目标变量，target，y，连续值

预测变量：影响目标变量的因素，predictors，X1...Xn，可以是连续值也可以是离散值

之间的关系：即模型，model，是我们要求解的

1.连续值和离散值

如上图所示，离散值就如左边一样，是以点的形式展现出来的数据，这些变量的取值不是连续的，即它们不能以任意小的方式递增或递减。每个类别通常是相互排斥的，即一个数据点只能属于一个类别。连续值则如右边展示的一样，是以线的形式所展现出来的数据，连续变量可以在两个端点之间取无限多个值。对于连续值，我们可以进行微小变化。

二、简单线性回归的基本原理

1.简单线性回归的概念

简单线性回归，顾名思义，就是最简单的线性回归算法。简单线性回归算法对应的算法公式为

$y=\omega x+b$

在这个公式当中， $y$ 是目标变量即未来要预测的值， $x$ 是影响y 的因素， $\omega$ 、 $b$ 是公式上的参数即要求的模型。 $\omega$ 是斜率，而 $b$ 就是截距。

所以很明显，如果我们求出了模型，未来影响 $y$ 值的未知数只有一个 $x$ 值，也可以说影响 $y$ 值的因素只有一个。同时我们可以发现，从 $x$ 到 $y$ 的计算， $x$ 的最高次是1次方，这就是算法叫"简单线性回归"的原因。

2.最优解

我们人工智能领域所要研究的，就是给出大量的已知条件 $y$ 和 $x$ ，去求解出最优的模型 $\omega$ 和 $b$ ！下面我举出一个发射火箭的例子来帮助大家理解。

从上图中可以看到，x轴为火箭发射时的温度，y轴为火箭发射失败的次数。这张图所展示的，就是火箭失败次数与发射时温度的关系。图上的一个个空心圈，代表的是此次实验的样本数据（火箭在不同发射温度下的失败次数）。

其中人工智能要做的事情就是预测，比如预测火箭在哪个温度下的失败次数最少，或者预测出在不同的温度下发射会失败的次数。这本质上是一个回归问题（具体请阅读我的文章3.人工智能的任务与本质_csdn 人工智能-CSDN博客）。面对回归问题，我们需要用一个函数去拟合样本数据，即尽可能地去穿过这些样本数据。

我们现在尝试用简单线性回归模型去获得最优解。那么如何使用简单线性回归来解决这个问题呢？那么我们就需要以下数据：

①Actual value：真实值 $y$

②Predicted value：预测值 $\hat{y}$ ，是把已知的 $x$ 带入到公式里面和猜出来的参数 $\omega$ , $b$ 计算得到的

③Error：误差，预测值和真实值的差距

④Loss：整体的误差，loss 通过损失函数 loss function 计算得到

我们将样本数据中的 $x$ 带入线性函数当中，可以得到许多组预测值 $\hat{y}$ 。然后，我们用真实值 $y$ 减去 预测值 $\hat{y}$ ，就可以得到误差Error。通过反复地执行以上的操作，我们就可以得到许多组不同的误差Error。然后多组的误差就可以通过损失函数Loss function 获得整体误差Loss。我们通过改变参数 $\omega$ 和 $b$ 来改变模型。再不断重复以上操作直到获得Loss的最小值，这个就是我们要寻求的最优解。

该如何来评估Loss呢？我们通常使用均方误差(Mean Squared Error，MSE)来评估回归模型的表现，公式如下：

$MSE = \frac{1}{n}\sum_{i=1}^{n}\left ( y_{i} -_{\hat{y_{i}}}\right )^{2}$

$\left ( y_{i} -\hat{y _{i}}\right )^{2}$ 代表的是每次误差Error的平方，整体求和之后再求均值就可以得到均方误差(MSE)。我们通过不断地计算，得出尽可能小的MSE就是我们的最优解。

三、多元线性回归

1.多元线性回归的公式

在我们的现实生活当中，影响结果 $y$ 的结果往往不止一个，这时 $x$ 就从一个变成了 $n$ 个， $x_{1} ... x_{n}$ 同时简单线性回归的公式也就不再适用了。于是我们将公式变为以下的模样：

$\hat{y} = \beta _{0} + \beta _{1}x_{1} + ... +\beta _{n}x_{n}$

其中， $\beta _{0}$ 是我们的偏质，也就是截距。我们可以通过下图(4条样本的样例)来理解。

examples代表着样本，每一行都是其中一个样本，outcome就是我们已知的真实值 $y$ ，features就是影响因素，我们也称它为"维度"、"特征"。 $\varepsilon$ 代表Error误差，每条样本预测的值和真实值之间都会有误差，所以有 m 条样本就对应 m 个 $\varepsilon$ 值， $\varepsilon$ 和 $Y$ 一样是包含 m 个值得一维向量。值得一提的是 $x_{0}$ 一列，是为了后面可以通过公式计算出截距项而加的，同时会把 $x_{0}$ 一列所有值设置恒为 1，这样 $X$ 就是 m 行 4 列的二维数组即矩阵。最后图中还出现了 $\beta$ 符号，从 0 到 n，n=3，总共有 4 个，不难发现这个正好和特征数量一样，我们可以理解或叫做这是特征的权值，代表对应特征的重要程度，也叫权重(weight)。