机器学习基础——线性回归公式推导（附完整代码）

最新推荐文章于 2025-02-13 00:34:04 发布

TechFlow

最新推荐文章于 2025-02-13 00:34:04 发布

阅读量2.4k

点赞数 1

分类专栏：机器学习文章标签：机器学习 python

本文链接：https://blog.csdn.net/TechFlow/article/details/104178366

版权

本文介绍了线性回归模型的概念，通过最小二乘法和均方差来寻找最佳参数。详细推导了线性回归的公式，并通过Python代码展示了简单的线性回归实验，讨论了直接计算的局限性和实际应用中采用的优化方法。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

在之前的文章当中，我们介绍过了简单的朴素贝叶斯分类模型，介绍过最小二乘法，所以这期文章我们顺水推舟，来讲讲线性回归模型。

线性回归的本质其实是一种统计学当中的回归分析方法，考察的是自变量和因变量之间的线性关联。后来也许是建模的过程和模型训练的方式和机器学习的理念比较接近，所以近年来，这个模型被归入到了机器学习的领域当中。然而，不管它属于哪个领域，整个模型的思想并没有发生变化。我们只要有所了解即可。

模型概念

线性回归的定义非常简单，它最简单的形式其实就是一元一次方程组。比如，我们有如下式子：

$y = w x + b$

我们知道若干的x和y，要求w和b。解的方法很简单，我们通过消元法，就可以很容易求出来w和b。

我们针对以上的式子做两个变形，第一个变形是我们的自变量x不再是一个单值，而是一个m * n的矩阵。m表示样本数，n表示特征数，我们写成X。X矩阵的每一行是一个n维的行向量，它代表一个样本。它的系数W也不再是一个值，而是一个n * 1的列向量，它的每一维代表一个样本当中这一维的权重。我们把上面的公式写成矩阵相乘的形式：

$Y = X W + b$

式子里的Y、X和W分别是m * 1, m * n和n * 1的矩阵。

这里有两点要注意，第一点是这里的b我们可以当做是一个浮点数的参数，但是实际上它也是一个m * 1的矩阵（列向量）。但即使我们用的是浮点数也没关系，因为在我们实现模型的时候，numpy或者TensorFlow或者是其他的框架会自动地使用广播将它转化成向量来做加法。

第二点是这里的X写在了W的前面，这也是为了矩阵乘法计算方便。当然我们也可以将X和W都转置，写成WX，但这样得到的结果是一个1 * m的行向量，如果要和Y进行比较，那么还需要再进行一次转置。所以为了简便，我们对调了X和W的顺序。所以大家不要觉得疑惑，明明是WX+b怎么写出来就成了XW+b了。

我们把式子列出来之后，目标就很明确了，就是要通过计算求到一个W和b使得式子成立。但是在此之前，我们需要先明确一点：在实际的工程应用场景当中，是不可能找到W和b使得XW+b恰好和Y完全相等的。因为真实的场景当中数据都存在误差，所以精确的解是不存在的，我们只能退而求其次，追求尽可能精确的解。

最小二乘法与均方差

在之前的文章当中我们介绍过最小二乘法，遗忘的同学可以点击下方链接回顾一下。

概率统计——期望、方差与最小二乘法

在机器学习的过程当中，模型不是直接达到最佳的，而是通过一步一步的迭代，效果逐渐提高，最终收敛不再剧烈变化。我们明白了这个过程，就能理解，在学习的过程当中，我们需要一个量化的指标来衡量模型当前学习到的能力。就好像学生在上学的时候需要考试来测试学生的能力一样，我们也需要一个指标来测试模型的能力。

对于回归模型而言，预测的目标是一个具体的值。显然这个预测值和真实值越接近越好。我们假设预测值是 $\hat{y}$ ，真实值是y，显然应该是 $|y-\hat{y}|$ 越小越好。