最小二乘法——高斯-马尔可夫定理的证明,无偏估计、求系数的方差

前言

最小二乘法(least squares)是我们很早就接触过的一类系数求解方法,是广义线性回归的特殊情形——即一元线性回归。本文将假设误差遵从高斯——马尔可夫假设,证明为什么在该假设下,最小二乘法求得的系数是最佳的且无偏、并推导系数的的方差。

相关证明

最小二乘法数学式:

y i = x i T β + ε i y_i=x_i^{T}\beta + \varepsilon_i yi=xiTβ+εi --(1)

x i = ( 1 x i 0 x i 1 . . . x i k ) , β = ( b 0 b 1 . . . b k ) x_i=\begin{pmatrix}1\\ x_{i0} \\ x_{i1} \\... \\x_{ik}\end{pmatrix}, \beta= \begin{pmatrix}b_0 \\ b_1 \\... \\ b_k\end{pmatrix} xi= 1xi0xi1...xik ,β= b0b1...bk

ε \varepsilon ε为误差项,假设其服从高斯——马尔可夫假设,即均值为0,且与随机变量 x i x_i xi无关,所有的误差的方差都相同且各自之间不相关且 X X X为一个确定值。既有:

E ( ε i ) = 0 E(\varepsilon_i) = 0 E(εi)=0,       − ( 假设 1 ) \ \ \ \ \ -(假设1)      (假设1)

E ( ε ∣ x ) = 0 E(\varepsilon|x)=0 E(εx)=0,       − ( 假设 2 ) \ \ \ \ \ -(假设2)      (假设2)

v a r ( ε ) = σ 2 I var(\varepsilon) = \sigma^2I var(ε)=σ2I       − ( 假设 3 ) \ \ \ \ \ -(假设3)      (假设3)

其中 I I I为单位矩阵。

下面首先求 β \beta β的估计值 β ^ \hat{\beta} β^,并证明它是 β \beta β的无偏估计,先不考虑(1)式中的误差项,并将有所的样本带入上市,我们可得:

Y = X T β Y = X^T\beta Y=XTβ      − ( 2 ) \ \ \ \ -(2)     (2)

其中 Y = ( y 0 , y 1 , . . . , y n ) T , X = ( x 0 , x 1 , . . . , x n ) Y=(y_0, y_1, ..., y_n)^T, X=(x_0 , x_1,..., x_n) Y=(y0,y1,...,yn)T,X=(x0,x1,...,xn)
为了求出 β \beta β的值,首先将(2)式两边左乘 X X X,然后在左乘 ( X X T ) − 1 (XX^T)^{-1} (XXT)1,即可推出

β ^ = ( X X T ) − 1 X Y \hat\beta=(XX^T)^{-1}XY β^=(XXT)1XY

无偏估计

下面证明 β ^ \hat\beta β^ β \beta β的无偏估计。
E ( β ^ ) = E ( ( X X T ) − 1 X Y ) = E ( ( X X T ) − 1 X ( X T β + ε ) ) = E ( β + ( X X T ) − 1 X ε ) = β + E ( ( X X T ) − 1 X ε )        − ( 3 ) = β + E ( ( X X T ) − 1 X ) ∗ E ( ε )       − ( 4 ) = β       − ( 5 ) \begin{array}{rcl} E(\hat\beta)&=&\text{E}((XX^T)^{-1}XY)\\&=&E((XX^T)^{-1}X(X^T\beta + \varepsilon))\\&=&\text{E}(\beta+(XX^T)^{-1}X\varepsilon) \\&=&\beta+E((XX^T)^{-1}X\varepsilon) \ \ \ \ \ \ -(3) \\&=&\beta + E((XX^T)^{-1}X)*E(\varepsilon) \ \ \ \ \ -(4) \\&=&\beta\ \ \ \ \ -(5) \end{array} E(β^)======E((XXT)1XY)E((XXT)1X(XTβ+ε))E(β+(XXT)1)β+E((XXT)1)      (3)β+E((XXT)1X)E(ε)     (4)β     (5)
上式(3)到(4)利用了假设2,(4)到(5)利用了假设3,证毕。

系数的标准差及P值

下面求系数的标准差。
v a r ( β ˉ ) = E ( ( β ^ − β ) ( β ^ − β ) T ) = E ( ( X X T ) − 1 X ε ∗ ε T X T ( X X T ) − 1 )       − ( 5 ) = ( X X T ) − 1 X E ( ε ε T ) X T ( X X T ) − 1       − ( 6 ) = σ 2 ( X X T ) − 1 \begin{array}{rcl} var(\bar\beta)&=&E((\hat\beta-\beta)(\hat\beta-\beta)^T) \\&=&E((XX^T)^{-1}X\varepsilon*\varepsilon^TX^T(XX^T)^{-1})\ \ \ \ \ -(5) \\&=&(XX^T)^{-1}XE(\varepsilon\varepsilon^T) X^T(XX^T)^{-1}\ \ \ \ \ -(6) \\&=&\sigma^2(XX^T)^{-1}\end{array} var(βˉ)====E((β^β)(β^β)T)E((XXT)1εTXT(XXT)1)     (5)(XXT)1XE(εεT)XT(XXT)1     (6)σ2(XXT)1

从(5)式到(6式)的原因是我们假设 X X X为确定值,对于每一个系数,它的标准差为:

S E i = σ 2 ( X T X ) i i − 1 SE_i=\sqrt{\sigma^2(X^TX)^{-1}_{ii}} SEi=σ2(XTX)ii1

知道了标准差,我们可以进行特征系数的t检验。

原假设:特征对label没有影响,即系数为0。

备择假设:特征对label有影响,系数不为0。

参考文章假设检验、显著性水平、P值、Z值的理解:构造中间量 z z z

z = β i − k S E i z=\frac{\beta_{i} - k} {SE_i} z=SEiβik,其中k=0, β i \beta_i βi S E i SE_i SEi都是已求得的量,继而P值也可以求得。

现在用反证法来证明最小二乘估计是最佳无偏线性估计,假设存在比最小二乘估计更好的无偏线性估计 β ˉ = C Y \bar\beta=CY βˉ=CY, 由于 C C C的任意性,设 C = ( X X T ) − 1 X + D C=(XX^T)^{-1}X + D C=(XXT)1X+D,其中 D D D ( k + 1 ) ∗ N (k+1)*N (k+1)N的非零矩阵, k + 1 k+1 k+1为特征个数加上一个常量项, N N N为样本个数。

由假设条件, 是无偏估计,所以必须满足 E ( β ˉ ) = β E(\bar\beta)=\beta E(βˉ)=β,而:
E ( β ˉ ) = E ( C Y ) = E ( ( ( X X T ) − 1 X + D ) ( X T β + ε ) ) = E ( ( ( X X T ) − 1 X + D ) X T β ) + E ( ( X X T ) − 1 X + D ) E ( ε ) = E ( ( ( X X T ) − 1 X + D ) X T β ) = β ( I + D X T ) \begin{array}{rcl}E(\bar\beta)&=&E(CY)\\&=&E(((XX^T)^{-1}X + D)(X^T\beta+\varepsilon)) \\&=&E(((XX^T)^{-1}X + D)X^T\beta) + E((XX^T)^{-1}X + D)E(\varepsilon) \\&=&E(((XX^T)^{-1}X + D)X^T\beta) \\&=&\beta(I + DX^T) \end{array} E(βˉ)=====E(CY)E(((XXT)1X+D)(XTβ+ε))E(((XXT)1X+D)XTβ)+E((XXT)1X+D)E(ε)E(((XXT)1X+D)XTβ)β(I+DXT)
所以 D X T = 0 DX^T=0 DXT=0
既有:
v a r ( β ˉ ) = E [ [ ( ( X X T ) − 1 X + D ) Y − ( ( X X T ) − 1 X Y − ( X X T ) − 1 X ε ) ] [ ( ( X X T ) − 1 X + D ) Y − ( ( X X T ) − 1 X Y − ( X X T ) − 1 X ε ) T ] ] = E [ ( D Y + ( X X T ) − 1 X ε ) ( D Y + ( X X T ) − 1 X ε ) T ] = E ( D Y Y T D T + D Y ε T X T ( X X T ) − 1 + ( X X T ) − 1 X ε Y T D T + ( X X T ) − 1 X ε ε T X T ( X X T ) − 1 ) = σ 2 D D T + E ( D ( X T β + ε ) ε T X T ( X X T ) − 1 ) + E ( ( X X T ) − 1 X ε ( X T β + ε ) T D T ) + σ 2 E ( X X T ) − 1 = σ 2 D D T + E ( D X T β ε T X T ∗ ( X X T ) − 1 ) + E ( D ε ε T X T ( X X T ) − 1 ) + E ( ( X X T ) X ε β T X D T ) + E ( ( X X T ) X ε ε T D T ) + σ 2 E ( X X T ) − 1 = σ 2 D D T + σ 2 E ( X X T ) − 1 \begin{array}{rcl}var(\bar\beta)&=&E[[((XX^T)^{-1}X+D)Y - ((XX^T)^{-1}XY-(XX^T)^{-1}X\varepsilon)][((XX^T)^{-1}X+D)Y - ((XX^T)^{-1}XY-(XX^T)^{-1}X\varepsilon)^T]]\\ &=&E[(DY+(XX^T)^{-1}X\varepsilon)(DY+(XX^T)^{-1}X\varepsilon)^T]\\ &=&E(DYY^TD^T+DY\varepsilon^TX^T(XX^T)^{-1} + (XX^T)^{-1}X\varepsilon Y^TD^T+(XX^T)^{-1}X\varepsilon\varepsilon^TX^T(XX^T)^{-1})\\ &=&\sigma^2DD^T+E(D(X^T\beta+\varepsilon)\varepsilon^TX^T(XX^T)^{-1}) + E((XX^T)^{-1}X\varepsilon(X^T\beta+\varepsilon)^TD^T) + \sigma^2E(XX^T)^{-1}\\&=&\sigma^2DD^T + E(DX^T\beta\varepsilon^TX^T*(XX^T)^{-1}) + E(D\varepsilon\varepsilon^TX^T(XX^T)^{-1}) + E((XX^T)X\varepsilon \beta^TX D^T) + E((XX^T)X\varepsilon \varepsilon^T D^T) + \sigma^2E(XX^T)^{-1}\\ &=&\sigma^2DD^T + \sigma^2E(XX^T)^{-1} \end{array} var(βˉ)======E[[((XXT)1X+D)Y((XXT)1XY(XXT)1)][((XXT)1X+D)Y((XXT)1XY(XXT)1)T]]E[(DY+(XXT)1)(DY+(XXT)1)T]E(DYYTDT+DYεTXT(XXT)1+(XXT)1YTDT+(XXT)1εTXT(XXT)1)σ2DDT+E(D(XTβ+ε)εTXT(XXT)1)+E((XXT)1(XTβ+ε)TDT)+σ2E(XXT)1σ2DDT+E(DXTβεTXT(XXT)1)+E(DεεTXT(XXT)1)+E((XXT)βTXDT)+E((XXT)εTDT)+σ2E(XXT)1σ2DDT+σ2E(XXT)1

由于 D D T DD^T DDT对角线上的值都是大于等于0的,因此 β ˉ \bar\beta βˉ的协方差是大于等于 β ^ \hat\beta β^的,与原假设相矛盾,也即 β ^ \hat\beta β^是最佳的无偏估计,证毕。

高斯-马尔可夫定理的优点同局限性

高斯-马尔可夫定理的优点在于,它证明了简单的线性模型计算出的参数是最优的,而线性模型的最大优点在于计算简单、效率高,同时我们也可以检验出计算出的系数是否是显著的。它的局限性就在于它的几个强假设,比如 X X X是确定的,且各个误差项都是独立的且均值都为0,但在实际情况中,上面的假设是比较强的,如 X X X是会受到抽样的影响,在时序数据中,各个误差项并不独立。另一方面,高斯-马尔可夫定理针对的是线性情况,在非线性下它的结论不在成立。

参考文献:

[1]最小二乘法与高斯-马尔可夫定理

[2]高斯-马尔可夫定理-维基百科

[3]常用算法分析——最小二乘法

[4]最小二乘法的利与弊:高斯马尔科夫定理

  • 6
    点赞
  • 26
    收藏
    觉得还不错? 一键收藏
  • 2
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值