数学基础 -- 统计学之最小二乘法

sz66cm

于 2024-09-02 23:22:10 发布

阅读量434

点赞数 3

文章标签：最小二乘法算法机器学习

本文链接：https://blog.csdn.net/sz66cm/article/details/141832877

版权

最小二乘法

最小二乘法（Least Squares Method）是统计学和数值分析中的一种重要方法，用于解决过度确定（即方程的数量多于未知数的数量）的线性方程组，以及数据拟合问题。其核心思想是通过最小化预测值与实际观测值之间的误差的平方和来找到最佳拟合的参数。

最小二乘法的基本原理

假设我们有一组数据点 $(x_1, y_1), (x_2, y_2), \dots, (x_n, y_n)$ ，我们希望找到一个函数 $y = f (x)$ 来拟合这些数据点，使得实际观测值 $y_i$ 与拟合函数值 $f(x_i)$ 之间的误差最小。

最常见的情况是线性拟合，即假设拟合函数是线性的：
$y = m x + b$
其中， $m$ 是斜率， $b$ 是截距。我们的目标是找到 $m$ 和 $b$ 的值，使得实际值和拟合值之间的误差平方和最小。具体来说，误差的平方和（称为残差平方和）定义为：
$\sum_{i=1}^n \left( y_i - (mx_i + b) \right)^2$
最小二乘法的目标是找到 $m$ 和 $b$ 使得 $S (m, b)$ 最小。

为什么要对 $S (m, b)$ 求导？

在数学中，找到函数的极值（最大值或最小值）通常通过求函数的导数或偏导数，并令其等于零来实现。这个原理基于如下几点：

极值点的性质：
一个可微函数在其极值点（局部最大值或最小值）处，导数为零。这是因为导数表示的是函数的变化率，而在极值点上，函数的变化率为零（即函数曲线在该点处的切线是水平的）。
一阶条件：
对于多元函数 $S (m, b)$ ，其极值点满足一阶导数为零的条件：
$\frac{\partial S}{\partial m} = 0, \quad \frac{\partial S}{\partial b} = 0$
这意味着在极值点，沿着 $m$ 和 $b$ 方向的瞬时变化率为零。

偏导数等于零的推导

对 $b$ 求偏导数：

$\frac{\partial S(m, b)}{\partial b} = \frac{\partial}{\partial b} \sum_{i=1}^n \left( y_i - (mx_i + b) \right)^2$

使用链式法则对每一项求导：

$\frac{\partial S(m, b)}{\partial b} = \sum_{i=1}^n 2 \left( y_i - (mx_i + b) \right) \cdot (-1)$

简化为：

$\frac{\partial S(m, b)}{\partial b} = -2 \sum_{i=1}^n \left( y_i - (mx_i + b) \right)$

将其设为零，得到：

$\sum_{i=1}^n \left( y_i - (mx_i + b) \right) = 0$

进一步简化为：

$\sum_{i=1}^n y_i = m \sum_{i=1}^n x_i + nb$
（1）

对 $m$ 求偏导数：

$\frac{\partial S(m, b)}{\partial m} = \frac{\partial}{\partial m} \sum_{i=1}^n \left( y_i - (mx_i + b) \right)^2$

同样使用链式法则：

$\frac{\partial S(m, b)}{\partial m} = \sum_{i=1}^n 2 \left( y_i - (mx_i + b) \right) \cdot (-x_i)$

简化为：

$\frac{\partial S(m, b)}{\partial m} = -2 \sum_{i=1}^n x_i \left( y_i - (mx_i + b) \right)$

将其设为零，得到：

$\sum_{i=1}^n x_i \left( y_i - (mx_i + b) \right) = 0$

进一步简化为：

$\sum_{i=1}^n x_i y_i = m \sum_{i=1}^n x_i^2 + b \sum_{i=1}^n x_i$
（2）

解方程组

通过解这两个方程（方程1和方程2），可以得到 $m$ 和 $b$ 的值。

解 $b$ 的方程

从方程 (1) 中，我们可以解出 $b$ ：

$\frac{\sum_{i=1}^n y_i - m \sum_{i=1}^n x_i}{n}$

解 $m$ 的方程

将 $b$ 的表达式代入方程 (2) 可以求得 $m$ 的值：

$\frac{n \sum_{i=1}^n x_i y_i - \sum_{i=1}^n x_i \sum_{i=1}^n y_i}{n \sum_{i=1}^n x_i^2 - \left( \sum_{i=1}^n x_i \right)^2}$

用 $m$ 和 $b$ 进行预测

通过上述推导得到的 $m$ 和 $b$ ，我们可以构建出一个线性回归模型，并用它来对新数据点进行预测。

构建预测模型

预测模型为：
$y = m x + b$

预测新数据

当有一个新的自变量值 $x_{\text{new}}$ 时，可以使用这个模型预测相应的因变量值 $y_{\text{pred}}$ ：
$y_{\text{pred}} = m x_{\text{new}} + b$

举例说明

假设我们有一组数据点：
${(1, 2), (2, 3), (3, 5), (4, 4)\}$
通过最小二乘法计算得到 $m$ 和 $b$ （假设 $m = 0.9$ ， $b = 1.2$ ）。

预测模型为：
$y = 0.9 x + 1.2$

对于新的自变量 $x_{\text{new}} = 5$ ，我们可以预测相应的因变量：
$y_{\text{pred}} = 0.9 \times 5 + 1.2 = 5.7$

总结

通过最小二乘法得到的 $m$ 和 $b$ 实际上是用于构建线性回归模型的参数。这个模型可以用来预测新数据点的结果。计算出的 $m$ 和 $b$ 定义了最佳拟合直线，通过这个直线模型，你可以对新的输入进行预测，获得相应的输出。

sz66cm

关注

3
点赞
踩
12

收藏

觉得还不错? 一键收藏
0
评论
数学基础 -- 统计学之最小二乘法

通过最小二乘法得到的mmm和bbb实际上是用于构建线性回归模型的参数。这个模型可以用来预测新数据点的结果。计算出的mmm和bbb定义了最佳拟合直线，通过这个直线模型，你可以对新的输入进行预测，获得相应的输出。
复制链接

扫一扫