普通最小二乘法的推导证明

普通最小二乘法的推导证明

1、什么是最小二乘思想

简单地说,最小二乘的思想就是要使得观测点和估计点的距离的平方和达到最小.这里的“二乘”指的是用平方来度量观测点与估计点的远近(在古汉语中“平方”称为“二乘”),“最小”指的是参数的估计值要保证各个观测点与估计点的距离的平方和达到最小。从这个上也可以看出,最小二乘也可用于拟合数据模型。

2. 最小二乘法推导

我们以最简单的一元线性模型来解释最小二乘法。什么是一元线性模型呢? 监督学习中,如果预测的变量是离散的,我们称其为分类(如决策树,支持向量机等),如果预测的变量是连续的,我们称其为回归。回归分析中,如果只包括一个自变量和一个因变量,且二者的关系可用一条直线近似表示,这种回归分析称为一元线性回归分析。如果回归分析中包括两个或两个以上的自变量,且因变量和自变量之间是线性关系,则称为多元线性回归分析。对于二维空间线性是一条直线;对于三维空间线性是一个平面,对于多维空间线性是一个超平面…

对于一元线性回归模型, 假设从总体中获取了 n n n 组观察值 ( X 1 , Y 1 ) , ( X 1 , Y 2 ) , ( X 3 , Y 3 ) , . . . , ( X n , Y n ) (X_1,Y_1), (X_1,Y_2), (X_3,Y_3),...,(X_n, Y_n) (X1Y1),(X1,Y2),(X3,Y3),...,(Xn,Yn)。对于平面中的这 n n n 个点,可以使用无数条曲线来拟合。要求样本回归函数尽可能好地拟合这组值。综合起来看,这条直线处于样本数据的中心位置最合理。

选择最佳拟合曲线的标准可以确定为:使总的拟合误差(即总残差)达到最小。有以下三个标准可以选择:

  1. 用“残差和最小”确定直线位置是一个途径。但很快发现计算“残差和”存在相互抵消的问题。

  2. 用“残差绝对值和最小”确定直线位置也是一个途径。但绝对值的计算比较麻烦。

  3. 最小二乘法的原则是以“残差平方和最小”确定直线位置。用最小二乘法除了计算比较方便外,得到的估计量还具有优良特性。这种方法对异常值非常敏感。

最常用的是普通最小二乘法( Ordinary Least Square,OLS):所选择的回归模型应该使所有观察值的残差平方和达到最小。

3. 公式推导

1; 拟合曲线: y = a + b x y = a + bx y=a+bx

在此等式中,已经给定部分 ( x , y ) (x, y) (x,y) 用来求解 a , b a, b a,b,因此我们换一下表达式的顺序:

= = > > y = a + x b ==>>y = a + xb ==>>y=a+xb

2; 有任意观察点: ( x i , y i ) (x_i, y_i) (xi,yi)

3; 选取点的误差为: d i = y i − ( a + b x i ) d_i = y_i - (a + bx_i) di=yi(a+bxi)

4; 当 D = ∑ i = 1 n d i 2 = 0 D=\sum_{i=1}^n d_i^2 = 0 D=i=1ndi2=0 时取值最小,直线拟合度最高

5; D = ∑ i = 1 n d i 2 = ∑ i = 1 n ( y i − a − b x i ) 2 D = \sum_{i=1}^n d_i^2 = \sum_{i=1}^n(y_i -a - bx_i)^2 D=i=1ndi2=i=1n(yiabxi)2,分别对 a , b a, b a,b 求一阶偏导

∂ D ∂ a = 2 ∑ i = 1 n ( y i − a − x i b ) ∗ ( − 1 ) = − 2 ( ∑ i = i n y i − n a − ∑ i = i n x i b ) \frac{\partial D}{\partial a} = 2\sum_{i=1}^n(y_i -a -x_ib)*(-1) \\ = -2(\sum_{i=i}^ny_i-na-\sum_{i=i}^nx_ib) aD=2i=1n(yiaxib)(1)=2(i=inyinai=inxib)

∂ D ∂ b = 2 ∑ i = 1 n ( y i − a − x i b ( − x i ) = − 2 ( ∑ i = 1 n x i y i − ∑ i = 1 n x i a − ∑ i = 1 n x i 2 b ) \frac{\partial D}{\partial b} = 2\sum_{i=1}^n(y_i -a -x_ib(-x_i) \\ = -2(\sum_{i=1}^n x_iy_i -\sum_{i=1}^nx_ia -\sum_{i=1}^nx_i^2b) bD=2i=1n(yiaxib(xi)=2(i=1nxiyii=1nxiai=1nxi2b)

6; 令 ∂ D ∂ a = 0 , ∂ D ∂ b = 0 \frac{\partial D}{\partial a} =0, \frac{\partial D}{\partial b} = 0 aD=0,bD=0,求解 a , b a, b a,b。令 n x ‾ = ∑ i = 1 n x i , n y ‾ = ∑ i = 1 n y i n\overline{x}=\sum_{i=1}^nx_i, n\overline{y}=\sum_{i=1}^ny_i nx=i=1nxi,ny=i=1nyi,那么就有:

{ − 2 ( ∑ i = i n y i − n a − ∑ i = i n x i b ) = 0 − 2 ( ∑ i = 1 n x i y i − ∑ i = 1 n x i a − ∑ i = 1 n x i 2 b ) = 0 \begin{cases} -2(\sum_{i=i}^ny_i-na-\sum_{i=i}^nx_ib) = 0 \\ -2(\sum_{i=1}^n x_iy_i -\sum_{i=1}^nx_ia -\sum_{i=1}^nx_i^2b) = 0 \end{cases} {2(i=inyinai=inxib)=02(i=1nxiyii=1nxiai=1nxi2b)=0

进而有:

{ n y ‾ − n a − n x ‾ b = 0 n 2 x y ‾ − n x ‾ a − ∑ i = 1 n x i 2 b = 0 \begin{cases} n\overline{y} - na - n\overline{x}b = 0 \\ n^2\overline{xy} - n\overline{x}a - \sum_{i=1}^nx_i^2b = 0 \end{cases} {nynanxb=0n2xynxai=1nxi2b=0

求解得:

a = y ‾ − x ‾ b a = \overline{y} - \overline{x}b a=yxb

代入:

n 2 x y ‾ − n x ‾ ( y ‾ − x ‾ b ) − ∑ i = 1 n x i 2 b = 0 n 2 x y ‾ − n x y ‾ + n x ‾ 2 b − ∑ i = 1 n x i 2 b = 0 b = n 2 x y ‾ − n x y ‾ ∑ i = 1 n x i 2 − n x ‾ 2 = ∑ i = 1 n ( x i − x ‾ ) ( y i − y ‾ ) ∑ i = 1 n ( x i − x ‾ ) 2 n^2\overline{xy} - n\overline{x}(\overline{y} - \overline{x}b) - \sum_{i=1}^nx_i^2b = 0 \\ n^2\overline{xy} - n\overline{xy} + n\overline{x}^2b - \sum_{i=1}^nx_i^2b = 0 \\ b = \frac{n^2\overline{xy} - n\overline{xy}} {\sum_{i=1}^nx_i^2 - n\overline{x}^2} \\ = \frac{\sum_{i=1}^n(x_i-\overline{x})(y_i-\overline{y})}{\sum_{i=1}^n(x_i-\overline{x})^2} n2xynx(yxb)i=1nxi2b=0n2xynxy+nx2bi=1nxi2b=0b=i=1nxi2nx2n2xynxy=i=1n(xix)2i=1n(xix)(yiy)

总而言之:

{ a = y ‾ − x ‾ b b = ∑ i = 1 n ( x i − x ‾ ) ( y i − y ‾ ) ∑ i = 1 n ( x i − x ‾ ) 2 \begin{cases} a = \overline{y} - \overline{x}b \\ b = \frac{\sum_{i=1}^n(x_i-\overline{x})(y_i-\overline{y})}{\sum_{i=1}^n(x_i-\overline{x})^2} \end{cases} {a=yxbb=i=1n(xix)2i=1n(xix)(yiy)

看到这里,你如果不能一眼看出来花间结果,心里一定有🐎奔腾。别担心,下面一步一步的将 b b b解出来。 b b b的求解需要根据求和性质进行化简,分别求分子与分母。求和性质,具体可以参考 Introductory Econometrics A Modern Approach (Fourth Edition) 一书(计量经济学导论,第4版,杰弗里·M·伍德里奇 著)的附录A。详细推导过程如下:

{ n 2 x y ‾ − n x y ‾ = n 2 x y ‾ − n x y ‾ − n y x ‾ + n x y ‾ = ∑ i = 1 n x i y i − y ‾ ∑ i = 1 n x i − x ‾ ∑ i = 1 n y i + ∑ i = 1 n x y ‾ = ∑ i = 1 n ( x i y i − y ‾ x i − x ‾ y i + x y ‾ ) = ∑ i = 1 n ( x i − x ‾ ) ( y i − y ‾ ) − − − ∑ i = 1 n x i 2 − n x ‾ 2 = ∑ i = 1 n x i 2 − 2 n x ‾ 2 + n x ‾ 2 = ∑ i = 1 n x i 2 − 2 x ‾ ∑ i = 1 n x i + ∑ i = 1 n x ‾ 2 = ∑ i = 1 n ( x i 2 − 2 x ‾ x i + x ‾ 2 ) = ∑ i = 1 n ( x i − x ‾ ) 2 \begin{cases} n^2\overline{xy} - n\overline{xy} \\ = n^2\overline{xy} - n\overline{xy} - n\overline{yx} + n\overline{xy} \\ = \sum_{i=1}^nx_iy_i - \overline{y}\sum_{i=1}^nx_i - \overline{x}\sum_{i=1}^ny_i + \sum_{i=1}^n\overline{xy} \\ = \sum_{i=1}^n(x_iy_i - \overline{y}x_i - \overline{x}y_i + \overline{xy}) \\ = \sum_{i=1}^n(x_i-\overline{x})(y_i-\overline{y}) \\ \\ --- \\ \\ \sum_{i=1}^nx_i^2 - n\overline{x}^2 \\ = \sum_{i=1}^nx_i^2 - 2n\overline{x}^2 + n\overline{x}^2 \\ = \sum_{i=1}^nx_i^2 - 2\overline{x}\sum_{i=1}^nx_i + \sum_{i=1}^n\overline{x}^2 \\ = \sum_{i=1}^n(x_i^2 - 2\overline{x}x_i + \overline{x}^2) \\ = \sum_{i=1}^n(x_i-\overline{x})^2 \end{cases} n2xynxy=n2xynxynyx+nxy=i=1nxiyiyi=1nxixi=1nyi+i=1nxy=i=1n(xiyiyxixyi+xy)=i=1n(xix)(yiy)i=1nxi2nx2=i=1nxi22nx2+nx2=i=1nxi22xi=1nxi+i=1nx2=i=1n(xi22xxi+x2)=i=1n(xix)2

再次强调一遍前面得出的结论:

拟合曲线: y = a + b x y = a + bx y=a+bx 的最小二乘解为:

{ b = ∑ i = 1 n ( x i − x ‾ ) ( y i − y ‾ ) ∑ i = 1 n ( x i − x ‾ ) 2 a = y ‾ − x ‾ b \begin{cases} b = \frac{\sum_{i=1}^n(x_i-\overline{x})(y_i-\overline{y})}{\sum_{i=1}^n(x_i-\overline{x})^2} \\ a = \overline{y} - \overline{x}b \end{cases} {b=i=1n(xix)2i=1n(xix)(yiy)a=yxb

一般形式

有了上述推导证明,普通最小二乘法一般形式可以写成(字母盖小帽表示估计值,具体参考应用概率统计): y = β 1 x + β 0 y = \beta_1 x + \beta_0 y=β1x+β0,其最小二乘解为:
{ β 1 ^ = ∑ i = 1 n ( x i − x ‾ ) ( y i − y ‾ ) ∑ i = 1 n ( x i − x ‾ ) 2 β 0 ^ = y ‾ − β 1 ^ x ‾ \begin{cases} \hat{\beta_1} = \frac{\sum_{i=1}^n(x_i-\overline{x})(y_i-\overline{y})}{\sum_{i=1}^n(x_i-\overline{x})^2} \\ \hat{\beta_0} = \overline{y} - \hat{\beta_1}\overline{x} \end{cases} {β1^=i=1n(xix)2i=1n(xix)(yiy)β0^=yβ1^x

多元线性回归(Multiple Linear Regression)

在回归分析中,如果有两个或两个以上的自变量,就称为多元回归。事实上,一种现象常常是与多个因素相联系的,由多个自变量的最优组合共同来预测或估计因变量,比只用一个自变量进行预测或估计更有效,更符合实际。因此多元线性回归比一元线性回归的实用意义更大。

多元线性回归,主要是研究一个因变量与多个自变量之间的相关关系,跟一元回归原理差不多,区别在于影响因素(自变量)更多些而已。前面谈到的是一个因变量 y y y与一个自变量 x x x之间的一元线性相关关系, y = β 1 x + β 0 y = \beta_1 x + \beta_0 y=β1x+β0;多元回归回归研究的是变量 y y y 与可控变量 x 1 , x 2 , x 3 , . . . , x k x_1, x_2, x_3,..., x_k x1,x2,x3,...,xk 之间的线性关系, y = β 1 x 1 + β 2 x 2 + . . . + β k x k + β 0 y = \beta_1 x_1 + \beta_2 x_2 +...+ \beta_k x_k + \beta_0 y=β1x1+β2x2+...+βkxk+β0

n n n 组样本分别为 ( x i 1 , x i 2 , . . . , x i k , y i ) , ( i = 1 , 2 , . . , n ) (x_{i1}, x_{i2},..., x_{ik},y_i), (i=1,2,..,n) (xi1,xi2,...,xik,yi),(i=1,2,..,n),令:

Y = ( y 1 y 2 . . . y n ) , X = ( 1 x 11 x 12 . . . x 1 k 1 x 21 x 22 . . . x 2 k . . . . . . . . . . . . . . . 1 x n 1 x n 2 . . . x n k ) , β = ( β 0 β 1 . . . β k ) , ϵ = ( ϵ 0 ϵ 1 . . . ϵ k ) Y = \begin{pmatrix} y_1 \\ y_2 \\...\\ y_n \\ \end{pmatrix}, X = \begin{pmatrix} 1 & x_{11} & x_{12} & ... & x_{1k} \\ 1 & x_{21} & x_{22} & ... & x_{2k} \\ ...&...&...&...&... \\ 1 & x_{n1} & x_{n2} & ... & x_{nk} \end{pmatrix}, \beta = \begin{pmatrix} \beta_0 \\ \beta_1 \\ ... \\ \beta_k \\ \end{pmatrix}, \epsilon = \begin{pmatrix} \epsilon_0 \\ \epsilon_1 \\ ... \\ \epsilon_k \\ \end{pmatrix} Y= y1y2...yn ,X= 11...1x11x21...xn1x12x22...xn2............x1kx2k...xnk ,β= β0β1...βk ,ϵ= ϵ0ϵ1...ϵk

那么,多元线性回归方程矩阵形式为: Y = X β + ϵ Y=X\beta + \epsilon Y=+ϵ。其中 ϵ \epsilon ϵ 代表随机误差, 其中随机误差分为:可解释的误差 和 不可解释的误差,随机误差必须满足以下四个条件,多元线性方程才有意义(一元线性方程也一样)

  1. 服成正太分布,即指:随机误差 ϵ \epsilon ϵ必须是服成正太分布的随机变量;
  2. 无偏性假设,即指:期望值为0;
  3. 同共方差性假设,即所有的随机误差变量方差都相等;
  4. 独立性假设,即指:所有的随机误差变量都相互独立,可以用协方差解释。

与普通最小二乘法推到相似,可以得到 β \beta β的最小二乘估计为:

β ^ = ( X T X ) − 1 X T Y \hat{\beta} = (X^TX)^{-1}X^TY β^=(XTX)1XTY

多元线性回归的基本原理和基本计算过程与一元线性回归相同,但由于自变量个数多,计算相当麻烦,一般在实际中应用时都要借助统计软件。这里只介绍多元线性回归的一些基本问题。

  • T O D O \color{#FF3030}{TODO} TODO:证明可参考:《应用概率统计 张国权 著》第九章 回归分析

多项式回归模型与多变量线性回归模型

  • 单变量线性回归: y ( x ) = β 0 + β 1 ∗ x y(x)=\beta_0 + \beta_1 * x y(x)=β0+β1x
  • 多变量线性回归: y ( x ) = β 0 + β 1 ∗ x 1 + β 2 ∗ x 2 + . . . + β k ∗ x k y(x)=\beta_0 + \beta_1 * x_1 + \beta_2 * x_2 +...+ \beta_k * x_k y(x)=β0+β1x1+β2x2+...+βkxk
  • 多项式回归: y ( x ) = β 0 + β 1 ∗ x 1 1 + β 2 ∗ x 2 2 + . . . + β k ∗ x k k y(x)=\beta_0 + \beta_1 * x_1^1 + \beta_2 * x_2^2 +...+ \beta_k * x_k^k y(x)=β0+β1x11+β2x22+...+βkxkk

多项式回归始终还是线性回归,你可以令 x 2 = x 2 2 , x 3 = x 3 3 x_2 = x_2^2, x_3 = x_3^3 x2=x22,x3=x33,简单的数据处理一下就好了,这样上述多项式回归的模型就变成多变量线性回归的模型了。

reference

线性回归参考:

SPSS–回归-多元线性回归模型案例解析

普通最小二乘法的推导证明

最小二乘法详细推导过程

多元线性回归

线性回归 - 机器学习多元线性回归 - 一步一步详解 - Python代码实现

latex 书写参考:

有LaTeX的深厚底蕴,Markdown是果然最美的编辑语言!!

最小二乘法详细推导过程的md文件以及python源码下载(free):https://download.csdn.net/download/orDream/89397591

  • 8
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

或许,这就是梦想吧!

如果对你有用,欢迎打赏。

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值