普通最小二乘法的推导证明

或许，这就是梦想吧！

已于 2024-06-04 14:48:56 修改

阅读量925

点赞数 8

文章标签：最小二乘法算法机器学习

于 2024-06-04 14:36:50 首次发布

本文链接：https://blog.csdn.net/orDream/article/details/139442487

版权

普通最小二乘法的推导证明

1、什么是最小二乘思想

简单地说，最小二乘的思想就是要使得观测点和估计点的距离的平方和达到最小.这里的“二乘”指的是用平方来度量观测点与估计点的远近（在古汉语中“平方”称为“二乘”），“最小”指的是参数的估计值要保证各个观测点与估计点的距离的平方和达到最小。从这个上也可以看出，最小二乘也可用于拟合数据模型。

2. 最小二乘法推导

我们以最简单的一元线性模型来解释最小二乘法。什么是一元线性模型呢？监督学习中，如果预测的变量是离散的，我们称其为分类（如决策树，支持向量机等），如果预测的变量是连续的，我们称其为回归。回归分析中，如果只包括一个自变量和一个因变量，且二者的关系可用一条直线近似表示，这种回归分析称为一元线性回归分析。如果回归分析中包括两个或两个以上的自变量，且因变量和自变量之间是线性关系，则称为多元线性回归分析。对于二维空间线性是一条直线；对于三维空间线性是一个平面，对于多维空间线性是一个超平面…

对于一元线性回归模型, 假设从总体中获取了 $n$ 组观察值 $X_1，Y_1), (X_1,Y_2), (X_3,Y_3),...,(X_n, Y_n)$ 。对于平面中的这 $n$ 个点，可以使用无数条曲线来拟合。要求样本回归函数尽可能好地拟合这组值。综合起来看，这条直线处于样本数据的中心位置最合理。

选择最佳拟合曲线的标准可以确定为：使总的拟合误差（即总残差）达到最小。有以下三个标准可以选择：

用“残差和最小”确定直线位置是一个途径。但很快发现计算“残差和”存在相互抵消的问题。
用“残差绝对值和最小”确定直线位置也是一个途径。但绝对值的计算比较麻烦。
最小二乘法的原则是以“残差平方和最小”确定直线位置。用最小二乘法除了计算比较方便外，得到的估计量还具有优良特性。这种方法对异常值非常敏感。

最常用的是普通最小二乘法（ Ordinary Least Square，OLS）：所选择的回归模型应该使所有观察值的残差平方和达到最小。

3. 公式推导

1; 拟合曲线： $y = a + b x$

在此等式中，已经给定部分 $(x, y)$ 用来求解 $a, b$ ，因此我们换一下表达式的顺序：

$==>> y = a + x b$

2; 有任意观察点： $x_i, y_i)$

3; 选取点的误差为： $d_i = y_i - (a + bx_i)$

4; 当 $D=\sum_{i=1}^n d_i^2 = 0$ 时取值最小，直线拟合度最高

5; $\sum_{i=1}^n d_i^2 = \sum_{i=1}^n(y_i -a - bx_i)^2$ ，分别对 $a, b$ 求一阶偏导

$\frac{\partial D}{\partial a} = 2\sum_{i=1}^n(y_i -a -x_ib)*(-1) \\ = -2(\sum_{i=i}^ny_i-na-\sum_{i=i}^nx_ib)$

$\frac{\partial D}{\partial b} = 2\sum_{i=1}^n(y_i -a -x_ib(-x_i) \\ = -2(\sum_{i=1}^n x_iy_i -\sum_{i=1}^nx_ia -\sum_{i=1}^nx_i^2b)$

6; 令 $\frac{\partial D}{\partial a} =0, \frac{\partial D}{\partial b} = 0$ ，求解 $a, b$ 。令 $n\overline{x}=\sum_{i=1}^nx_i, n\overline{y}=\sum_{i=1}^ny_i$ ，那么就有：

$\begin{cases} -2(\sum_{i=i}^ny_i-na-\sum_{i=i}^nx_ib) = 0 \\ -2(\sum_{i=1}^n x_iy_i -\sum_{i=1}^nx_ia -\sum_{i=1}^nx_i^2b) = 0 \end{cases}$

进而有：

$\begin{cases} n\overline{y} - na - n\overline{x}b = 0 \\ n^2\overline{xy} - n\overline{x}a - \sum_{i=1}^nx_i^2b = 0 \end{cases}$

求解得：

$\overline{y} - \overline{x}b$

代入：

$n^2\overline{xy} - n\overline{x}(\overline{y} - \overline{x}b) - \sum_{i=1}^nx_i^2b = 0 \\ n^2\overline{xy} - n\overline{xy} + n\overline{x}^2b - \sum_{i=1}^nx_i^2b = 0 \\ b = \frac{n^2\overline{xy} - n\overline{xy}} {\sum_{i=1}^nx_i^2 - n\overline{x}^2} \\ = \frac{\sum_{i=1}^n(x_i-\overline{x})(y_i-\overline{y})}{\sum_{i=1}^n(x_i-\overline{x})^2}$

总而言之：

$\begin{cases} a = \overline{y} - \overline{x}b \\ b = \frac{\sum_{i=1}^n(x_i-\overline{x})(y_i-\overline{y})}{\sum_{i=1}^n(x_i-\overline{x})^2} \end{cases}$

看到这里，你如果不能一眼看出来花间结果，心里一定有🐎奔腾。别担心，下面一步一步的将 $b$ 解出来。 $b$ 的求解需要根据求和性质进行化简，分别求分子与分母。求和性质，具体可以参考 Introductory Econometrics A Modern Approach (Fourth Edition) 一书（计量经济学导论，第4版，杰弗里·M·伍德里奇著）的附录A。详细推导过程如下：

$\begin{cases} n^2\overline{xy} - n\overline{xy} \\ = n^2\overline{xy} - n\overline{xy} - n\overline{yx} + n\overline{xy} \\ = \sum_{i=1}^nx_iy_i - \overline{y}\sum_{i=1}^nx_i - \overline{x}\sum_{i=1}^ny_i + \sum_{i=1}^n\overline{xy} \\ = \sum_{i=1}^n(x_iy_i - \overline{y}x_i - \overline{x}y_i + \overline{xy}) \\ = \sum_{i=1}^n(x_i-\overline{x})(y_i-\overline{y}) \\ \\ --- \\ \\ \sum_{i=1}^nx_i^2 - n\overline{x}^2 \\ = \sum_{i=1}^nx_i^2 - 2n\overline{x}^2 + n\overline{x}^2 \\ = \sum_{i=1}^nx_i^2 - 2\overline{x}\sum_{i=1}^nx_i + \sum_{i=1}^n\overline{x}^2 \\ = \sum_{i=1}^n(x_i^2 - 2\overline{x}x_i + \overline{x}^2) \\ = \sum_{i=1}^n(x_i-\overline{x})^2 \end{cases}$

再次强调一遍前面得出的结论：

拟合曲线： $y = a + b x$ 的最小二乘解为：

$\begin{cases} b = \frac{\sum_{i=1}^n(x_i-\overline{x})(y_i-\overline{y})}{\sum_{i=1}^n(x_i-\overline{x})^2} \\ a = \overline{y} - \overline{x}b \end{cases}$

一般形式

有了上述推导证明，普通最小二乘法一般形式可以写成（字母盖小帽表示估计值，具体参考应用概率统计）： $\beta_1 x + \beta_0$ ，其最小二乘解为：
$\begin{cases} \hat{\beta_1} = \frac{\sum_{i=1}^n(x_i-\overline{x})(y_i-\overline{y})}{\sum_{i=1}^n(x_i-\overline{x})^2} \\ \hat{\beta_0} = \overline{y} - \hat{\beta_1}\overline{x} \end{cases}$

多元线性回归(Multiple Linear Regression)

在回归分析中，如果有两个或两个以上的自变量，就称为多元回归。事实上，一种现象常常是与多个因素相联系的，由多个自变量的最优组合共同来预测或估计因变量，比只用一个自变量进行预测或估计更有效，更符合实际。因此多元线性回归比一元线性回归的实用意义更大。

多元线性回归，主要是研究一个因变量与多个自变量之间的相关关系，跟一元回归原理差不多，区别在于影响因素（自变量）更多些而已。前面谈到的是一个因变量 $y$ 与一个自变量 $x$ 之间的一元线性相关关系， $\beta_1 x + \beta_0$ ；多元回归回归研究的是变量 $y$ 与可控变量 $x_1, x_2, x_3,..., x_k$ 之间的线性关系， $\beta_1 x_1 + \beta_2 x_2 +...+ \beta_k x_k + \beta_0$ 。

记 $n$ 组样本分别为 $x_{i1}, x_{i2},..., x_{ik},y_i), (i=1,2,..,n)$ ，令：

$\begin{pmatrix} y_1 \\ y_2 \\...\\ y_n \\ \end{pmatrix}, X = \begin{pmatrix} 1 & x_{11} & x_{12} & ... & x_{1k} \\ 1 & x_{21} & x_{22} & ... & x_{2k} \\ ...&...&...&...&... \\ 1 & x_{n1} & x_{n2} & ... & x_{nk} \end{pmatrix}, \beta = \begin{pmatrix} \beta_0 \\ \beta_1 \\ ... \\ \beta_k \\ \end{pmatrix}, \epsilon = \begin{pmatrix} \epsilon_0 \\ \epsilon_1 \\ ... \\ \epsilon_k \\ \end{pmatrix}$

那么，多元线性回归方程矩阵形式为： $Y=X\beta + \epsilon$ 。其中 $\epsilon$ 代表随机误差，其中随机误差分为：可解释的误差和不可解释的误差，随机误差必须满足以下四个条件，多元线性方程才有意义（一元线性方程也一样）

服成正太分布，即指：随机误差 $\epsilon$ 必须是服成正太分布的随机变量；
无偏性假设，即指：期望值为0；
同共方差性假设，即所有的随机误差变量方差都相等；
独立性假设，即指：所有的随机误差变量都相互独立，可以用协方差解释。

与普通最小二乘法推到相似，可以得到 $\beta$ 的最小二乘估计为：

$\hat{\beta} = (X^TX)^{-1}X^TY$

多元线性回归的基本原理和基本计算过程与一元线性回归相同，但由于自变量个数多，计算相当麻烦，一般在实际中应用时都要借助统计软件。这里只介绍多元线性回归的一些基本问题。

$\color{#FF3030}{TODO}$ ：证明可参考：《应用概率统计张国权著》第九章回归分析

多项式回归模型与多变量线性回归模型

单变量线性回归： $y(x)=\beta_0 + \beta_1 * x$
多变量线性回归： $y(x)=\beta_0 + \beta_1 * x_1 + \beta_2 * x_2 +...+ \beta_k * x_k$
多项式回归： $y(x)=\beta_0 + \beta_1 * x_1^1 + \beta_2 * x_2^2 +...+ \beta_k * x_k^k$

多项式回归始终还是线性回归，你可以令 $x_2 = x_2^2, x_3 = x_3^3$ ，简单的数据处理一下就好了，这样上述多项式回归的模型就变成多变量线性回归的模型了。

reference

线性回归参考：

线性回归 - 机器学习多元线性回归 - 一步一步详解 - Python代码实现

latex 书写参考：

有LaTeX的深厚底蕴，Markdown是果然最美的编辑语言！！

最小二乘法详细推导过程的md文件以及python源码下载(free)：https://download.csdn.net/download/orDream/89397591

或许，这就是梦想吧！

关注

8
点赞
踩
7

收藏

觉得还不错? 一键收藏
打赏
0
评论
普通最小二乘法的推导证明

简单地说，最小二乘的思想就是要使得.这里的“二乘”指的是用平方来度量观测点与估计点的远近（在古汉语中“平方”称为“二乘”），“最小”指的是参数的估计值要保证各个观测点与估计点的距离的平方和达到最小。从这个上也可以看出，最小二乘也可用于拟合数据模型。
复制链接

扫一扫