线性模型

平差和统计的概念区别

平差认为,或者说测量学的书籍认为,测量获得的值有一定的“误差”,需要进行“改正”,所以:
真值=观测值+改正值
而统计中和物理学中认为观测值是真值加上一些误差(或者称“噪声”)引起的,所以:
观测值=真值+误差
在摄影测量和数据处理的相关教材中沿用此规定。本文以统计的概念入手,所以沿用此规定,希望读者注意区别。

改正数和误差互为相反数。

线性模型

在数学中,变量关系有两种基本类型:函数关系和相关关系(dependent relationship),此种关系没有密切到如上所述的确定关系。

假设因变量y和k个自变量 x1,x2,,xk 之间存在简单的线性关系:

y=β0+β1x1++βkxk+ε

其中 ε 是一个随机变量进一步假定对自变量的n组不同取值,得到因变量y的n次观测,则有:
Y=Xβ+ε

其中

Y=y1y2yn,X=111x11x21xn1x1kx2kxnk,β=β1β2βn,ε=ε1ε2εn,

这里 ε 表示随机误差向量,满足 E(ε)=0,cov(ε,ε)=Σ
称上述模型为 线性模型,记为 (Y,Xβ,Σ) ,其中,Y称为观测向量,X是k个自变量在n此观测中的取值,因为选择观测的量是可以控制的,这是试验设计问题,称X为 设计矩阵(design matirx), β 是未知的参数向量,一般假定 Σ 是已知的,在许多问题中还假定n此观测相互独立,有公共方差,此时 Σ=σ2In ,这里 σ2 是未知参数,称为误差方差。

Gauss-Markov条件: cov(ε,ε)=σ2In,E(ε)=0

有时还需假定正态条件: εN(0,σ2In)
(注意到正态分布的性质 Y=Xβ+εN(Xβ,σ2In)
为了对未知参数进行估计,总假定试验次数n不小于线性回归模型包含的未知参数个数,且设计矩阵X是列满秩的,即:

rank(X)=k+1

使偏离平方和 ni=1(yiỹ i)2 取最小值的 β 称为它的最小二乘估计(Least Squares Estimate),简记为LS估计。这种求估计量的方法称为最小二乘法(Method of Least Squares),始于C.F.Gauss(1809),H后来A.A.Markov(1900)做了重要工作,奠定了这方面基础。

一元线性回归模型

y=β0+β1x+ε

假定 E(ε)=0,var(ε)=σ2 ,该式称为一元线性回归模型(Simple Linear Regression Model)。如果加上正态条件,称其为一元正态线性回归模型。因为相信大家已有概率统计知识,故直接讲一般情况——多元线性回归模型。

多元线性回归模型

我们在这里讨论多元线性回归模型 (Y,Xβ,σ2In)

参数 β 的估计

使总偏离平方和

Q(β)=i=1n[yi(β0+j=1kxijβj)]2=(YXβ)T(YXβ)=||YXβ||2

达到最小的 β 记为 β̂  即:
||YXβ̂ ||2=minβ||YXβ||2

(2)
β̂  β 的最小二乘估计。

Q==Q(β)=(YXβ)T(YXβ)YTY2βTXTY+βTXTXβ

β 求导,并令其为0
Qβ=2XTY+2XTXβ=0

整理后即有:
XTXβ=XTY

称该式为正规方程组(system of normal equations),记N为正规方程组的系数阵
N=XTX

因为N为列满秩矩阵,可逆,则:
β̂ =(XTX)1XTY

(1)
是正规方程组的解。

因为存在偏导数为0的点不是极值点的情况,下面的定理告诉我们正规方程组的解就是 β 的最小二乘估计

定理
1. 正规方程组的解(1)必是 β 的最小二乘估计
2. β 的最小二乘估计必为正规方程组的解。

proof.
1. 设 β̃  是正规方程组的解。即 β̃  满足:

(XX)β̃ =XY

β,
Q(β)===||YXβ||2=(YXβ)(YXβ)[(YXβ̃ )+X(β̃ β)][(YXβ̃ )+X(β̃ β)](YXβ̃ )(YXβ̃ )+(β̃ β)XX(β̃ β)+2(ββ̃ )X(YXβ̃ )

注意到:
(ββ̃ )X(YXβ̃ )=(ββ̃ )(XYXXβ̃ )=0
(β̃ β)XX(β̃ β)=||X(β̃ β)||20
Q(β)(YXβ̃ )(YXβ̃ )=Q(β̃ )
(3)
其中等号成立的充要条件为 ||X(β̃ β)||2=0 ,由 β 的任意性可知 β̃  满足(2)式,因此 β̃  β 的最小二乘估计。
2. 设 β̂  β 的最小二乘估计, β̃  是正规方程组的解,由(2)式:
Q(β̂ )Q(β̃ )
由(3)式:
Q(β̃ )Q(β̂ )
所以
Q(β̂ )=Q(β̃ )
这意味着
(β̃ β)XX(β̃ β)=||X(β̃ β)||2=0
因此 Xβ̃ =Xβ̂  因为 β̃  满足正规方程,则
XXβ̂ =XXβ̃ =XY
β̂  是正规方程组的解。

最小二乘估计的性质

设Y,Z为随机向量,A,B为常数矩阵,有下面两个常用结论:

  1. E(AY)=AE(Y)
  2. cov(AY,BZ)=Acov(Y,Z)BT

性质一 β̂  β 线性无偏估计
proof.
由(1), β̂  是Y的线性函数,故为线性估计。

E(β̂ )=E((XX)1XY)=(XX)1XE(Y)=(XX)1XXβ=β

性质二 cov(β̂ ,β̂ )=σ2(XX)1=σ2N1
proof.

cov(β̂ ,β̂ )=cov((XX)1XY,(XX)1XY)=(XX)1Xcov(Y,Y)X(XX)1=σ2(XX)1XX(XX)1=σ2(XX)1

可见 β̂  的各分量在一般情况下并不独立

对任一k+1维向量 C=(c0,c1,,ck) ,若存在n维向量L,使 E(LY)=Cβ ,则称 Cβ 为可估函数,而可估函数 Cβ 的最小方差线性无偏估计,称为它的最好线性无偏估计(Best Linear Unbiased Estimate,BLUE)

性质三 (Gauss-Markov定理): Cβ̂  Cβ 的最好线性无偏估计,其中 β̂  β 的最小二乘估计,
proof.
由性质1易见 Cβ̂  Cβ 的无偏估计,它显然是Y的线性函数,只需证明对 Cβ 的任一线性无偏估计 T=LY ,有 var(T)var(Cβ̂ ) .
T=LY Cβ 的无偏估计,则对任意 β 有:

E(T)=E(LY)=LE(Y)=LXβ=Cβ

LX=C
注意到性质二,有
var(T)=var(LY)=Lcov(Y,Y)L=σ2LL

var(Cβ)=Ccov(β̂ ,β̂ )C=σ2C(XX)1C


0=||LX(XX)1C||2LLC(XX)1Cvar(Cβ̂ )var(T)

由于T是 Cβ 的线性无偏估计,所以 Cβ̂  Cβ 的BLUE。

Gauss-Markov定理指出, Cβ̂  Cβ 的一切线性无偏估计中是方差最小的,但在 Cβ 的一切无偏估计中不一定方差最小。如果在正态性条件下,, Cβ̂  是UMVUE。

性质四 在正态条件下, Cβ̂  Cβ 的一致最小方差无偏估计(UMVUE)。(UMVUE定义参看数理统计基础一文)
该性质证明需要用到的结论较多,故不证。

σ2 的估计

由最小二乘估计原理知道,在线性模型 (Y,Xβ,σ2In) 中, β 用它的最小二乘估计 β̂  代替时,Q达到最小,记

Ŷ =Xβ̂ 

表示n个试验点处Y的回归值,
ε̂ =YŶ =YXβ̂ 

表示实际观测值Y与它的回归值之差,称为 残差,关于残差有如下性质

性质五
1. E(ε̂ )=0
2. cov(ε̂ ,ε̂ )=σ2(InX(XX)1X)
3. cov(β̂ ,ε̂ )=0

1.式显然成立,下证另外两式。

ε̂ ==YXβ̂ =YX(XX)1XY(InX(XX)1X)Y=AY

这里 A=InX(XX)1X
不难验证A是对称幂等阵
A=A,A2=A

cov(ε̂ ,ε̂ )==cov(β̂ ,ε̂ )===cov(AY,AY)=Acov(Y,Y)Aσ2AA=σ2A=σ2(InX(XX)1X)cov((XX)1XY,AY)(XX)1Xcov(Y,Y)Aσ2(XX)1XA=0

几何意义

下面给出最小二乘估计几 β̂  与残差 ε̂  的几何意义。如果把某个随机变量的n个观测值看成n维欧氏空间的一个向量,在此空间中,向量Y的长度定义为 ||Y||=YY ,两个向量的距离定义为 ||Y1Y2||

记设计矩阵的列向量为 X0,X1,,Xk ,是n维欧氏空间中的k+1个向量,它们的线性组合构成了n维空间的一个线性子空间,记为 (X) ,对任一向量 β̂ ,Xβ̂ (X) ,因此β的最小二乘估计 β̂  就是在 (X) 中寻找一个向量 Xβ̂  使得相应的 ε̂  长度最短,这仅当 Xβ̂  Y (X)中的投影时才能达到,如图由 Xβ̂ =X(XX)1XY ,可以称:

P=X(XX)1X


为空间 (X) 上的投影阵(projective matrix),或帽子阵(hat matirx),容易看出,投影阵具有对称性,幂等性。(投影阵性质特殊,可以将(n+1)维欧氏空间的向量投影到n维超平面上,是向量投影运算的一般化,在其他领域如CV等应用广泛,请特别留意)
β̂  β 的最小二乘估计时, ε̂  表示Y到 (X) 的垂线,性质五的3式表示 Ŷ  ε̂  相互垂直,

记残差向量的长度平方,即

Qe=||ε̂ ||2=ε̂ ε̂ 

为残差平方和
Qe====ε̂ ε̂ =(YXβ̂ )(YXβ̂ )=(AY)(AY)YAY=YYYX(XX)1(XX)(XX)1XYYYβ̂ XXβ̂ =YYŶ Xβ̂ YYŶ Ŷ 

(4)
上式说明残差向量 ε̂  与估计量 Ŷ  的长度平方和等于观测向量 Y 的长度平方,同时也给出了Qe的不同表达式。

残差 ε̂  与随机误差 σ2 有关,所以用 Qe=||ε̂ ||2 来估计 σ2 是合理的。

证明残差的平方和与 σ2 的无偏估计之间关系,要用到下面三个结论
1. 设n维随机向量Y,有 E(Y)=a,cov(Y,Y)=σ2In,A 为n阶对称常数阵,有

E(YAY)=aAa+σ2tr(A)

2. 设A,B是两个使乘积AB,BA都为方阵的矩阵,则
tr(AB)=tr(BA)

3. tr(A+B)=tr(A)+tr(B)

性质六

σ̂ 2=Qen(k+1)=Qent

称为残差方差(Residual Variance),有
E(σ̂ 2)=σ2

proof.
由(4)式及上面三个结论,有:
E(Qe)======E(YAY)βX[InX(XX)1X]Xβ+σ2tr[InX(XX)1X]σ2tr(InX(XX)1X)σ2[ntr[X(XX)1X]]σ2[ntr(Ik+1)]σ2(nk1)

由此即得
E(σ̂ 2)=E(Qenk1)=σ2

性质七 在正态性条件下
1. β̂ ,ε̂  相互独立,且 β̂ N(β,σ2N1),ε̂ N(0,σ2A)
2. β̂ ,Qe 相互独立
3. Qeσ2χ2(nk1)

由性质一,二,五知1.2.显然成立下证3.
proof.

Qe==YAY=(Xβ+ε)A(Xβ+ε)βXAXβ+βXAε+εAXβ+εAε

注意到 A=InX(XX)1X ,容易验证
βXAXβ=0
βXA=AXβ=0

因此
Qe=εAε

可见,残差平方和是随机误差 ε 的二次型。
因为矩阵A是对称幂等阵,因此一定存在一个n阶正交阵 Γ ,使 A=ΓTΛΓ, 其中 Λ=diag(λ1,,λn),λ1,,λn 是A的特征根,且 λi 非0即1,非零个数为 rank(A)=tr(A)=nk1, 不妨设为 λ1==λnk1=1 ,记 e=Γε/σ ,由 εN(0,σ2In) Γ 的正交性可知 eN(0,In) ,即 e=(e1,,en) 中每个分量 ei 独立,都服从 N(0,1) ,故
Qeσ2=(εσ)ΓΓAΓΓ(εσ)=eΛe=i=1nk1e2iχ2(nk1)

性质八 εN(0,σ2In) ,则 β 的最小二乘估计 β̂  也是 β 的极大似然估计, σ2 的极大似然估计为 Qe/n
proof.
εN(0,σ2In),YN(Xβ,σ2In) ,有定义,Y有密度函数

f(Y;β,σ2)=(2πσ2)n/2exp[12σ2(YXβ)(YXβ)]
似然函数
lnL(β,σ2)=n2ln2πn2lnσ212σ2(YXβ)(YXβ)

因此
{lnLβ=12σ2(2XY+2XXβ)lnLσ2=n2σ2+12σ4(YXβ)(YXβ)

令它们为0,解得它们的极大似然估计为:
β̂ L=(XX)1XY
σ̂ 2L=1n(YXβ̂ L)(YXβ̂ L)=Qen

广义最小二乘估计

在线性回归模型 (Y,Xβ,σ2In) 中,我们假定各次观测独立进行,即

cov(Y,Y)=σ2In

我们考虑更一般的情况
cov(Y,Y)=σ2Q

其中Q是已知的对称阵,且 |Q|0 ,将相应的线性回归模型记为 (Y,Xβ,σ2Q)

定义:设A是一个n阶复矩阵,如果存在一个n阶复矩阵B使 A=B2 ,则称B是A的平方根矩阵,记为 B=A

为了求未知参数 β,σ2 的最小二乘估计,作变换 Z=Q1/2Y,U=Q1/2X ,那么

E(Z)=E(Q1/2Y)=Q1/2E(Y)=Q1/2Xβ=Uβ
cov(Z,Z)=cov(Q1/2Y,Q1/2Y)=σ2Q1/2QQ1/2=σ2In

这样,线性回归模型 (Y,Xβ,σ2Q) 便化为 (Z,Uβ,σ2In) ,这是前面已经讨论的情况,可得正规方程组
UUβ=UZ
XQ1Xβ=XQ1Y

P=Q1
那么
β̂ =(XPX)1XPY

这就是 β 的最小二乘估计,称为广义最小二乘估计。
那么
cov(β̂ ,β̂ )=σ2(UU)1=σ2(XPX)1

残差平方和
Qe=||ZUβ̂ ||2===||Q1/2YQ1/2X(XPX)1XPY||2YPYYPX(XPX)1XPYYPYYPXβ̂ 

平方和分解公式

记:
Syy=(yiy¯)2=||Y1y¯||2 称为总变差平方和(总体平方和,Total Sum of Squares,TSS),
Qe=||YŶ ||2 称为残差平方和(Residual Sum of Squares,RSS), U=||Ŷ 1y¯||2=(ŷ iy¯)2 称为表示回归值 ŷ i 的波动,称为回归平方和(Explained Sum of Squares,ESS,Sum of Squares of Regression)

Syy=Qe+U

称为平方和分解公式
事实上:
Syy==||Y1y¯||2=||(YŶ )+(Ŷ 1y¯)||2||YŶ ||2+||Ŷ 1y¯||2+2(YŶ )(Ŷ 1y¯)

引用之前的A,P(投影阵)记号,显然 AP=0 ,又 (YŶ )1=0
(YŶ )(Ŷ 1y¯)===(YŶ )Ŷ (YŶ )1y¯{[InX(XX)1X]Y}[X(XX)1XY]YAPY=0

得证。

参考资料

  1. 应用数理统计(第二版) 关静,张玉环,史道济 主编
  • 5
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值