平差和统计的概念区别
平差认为,或者说测量学的书籍认为,测量获得的值有一定的“误差”,需要进行“改正”,所以:
真值=观测值+改正值
而统计中和物理学中认为观测值是真值加上一些误差(或者称“噪声”)引起的,所以:
观测值=真值+误差
在摄影测量和数据处理的相关教材中沿用此规定。本文以统计的概念入手,所以沿用此规定,希望读者注意区别。
改正数和误差互为相反数。
线性模型
在数学中,变量关系有两种基本类型:函数关系和相关关系(dependent relationship),此种关系没有密切到如上所述的确定关系。
假设因变量y和k个自变量
x1,x2,⋯,xk
之间存在简单的线性关系:
其中 ε 是一个随机变量进一步假定对自变量的n组不同取值,得到因变量y的n次观测,则有:
其中
这里 ε 表示随机误差向量,满足 E(ε)=0,cov(ε,ε)=Σ
称上述模型为 线性模型,记为 (Y,Xβ,Σ) ,其中,Y称为观测向量,X是k个自变量在n此观测中的取值,因为选择观测的量是可以控制的,这是试验设计问题,称X为 设计矩阵(design matirx), β 是未知的参数向量,一般假定 Σ 是已知的,在许多问题中还假定n此观测相互独立,有公共方差,此时 Σ=σ2In ,这里 σ2 是未知参数,称为误差方差。
Gauss-Markov条件: cov(ε,ε)=σ2In,E(ε)=0
有时还需假定正态条件:
ε∼N(0,σ2In)
(注意到正态分布的性质
Y=Xβ+ε∼N(Xβ,σ2In)
)
为了对未知参数进行估计,总假定试验次数n不小于线性回归模型包含的未知参数个数,且设计矩阵X是列满秩的,即:
使偏离平方和 ∑ni=1(yi−ỹ i)2 取最小值的 β 称为它的最小二乘估计(Least Squares Estimate),简记为LS估计。这种求估计量的方法称为最小二乘法(Method of Least Squares),始于C.F.Gauss(1809),H后来A.A.Markov(1900)做了重要工作,奠定了这方面基础。
一元线性回归模型
假定 E(ε)=0,var(ε)=σ2 ,该式称为一元线性回归模型(Simple Linear Regression Model)。如果加上正态条件,称其为一元正态线性回归模型。因为相信大家已有概率统计知识,故直接讲一般情况——多元线性回归模型。
多元线性回归模型
我们在这里讨论多元线性回归模型 (Y,Xβ,σ2In)
参数 β 的估计
使总偏离平方和
达到最小的 β 记为 β̂ 即:
(2)
称 β̂ 为 β 的最小二乘估计。
对 β 求导,并令其为0
整理后即有:
称该式为正规方程组(system of normal equations),记N为正规方程组的系数阵
因为N为列满秩矩阵,可逆,则:
(1)
是正规方程组的解。
因为存在偏导数为0的点不是极值点的情况,下面的定理告诉我们正规方程组的解就是 β 的最小二乘估计
定理:
1. 正规方程组的解(1)必是
β
的最小二乘估计
2.
β
的最小二乘估计必为正规方程组的解。
proof.
1. 设
β̃
是正规方程组的解。即
β̃
满足:
∀β,
注意到:
(β−β̃ )′X′(Y−Xβ̃ )=(β−β̃ )′(X′Y−X′Xβ̃ )=0
(β̃ −β)′X′X(β̃ −β)=||X(β̃ −β)||2≥0
其中等号成立的充要条件为 ||X(β̃ −β)||2=0 ,由 β 的任意性可知 β̃ 满足(2)式,因此 β̃ 是 β 的最小二乘估计。
2. 设 β̂ 是 β 的最小二乘估计, β̃ 是正规方程组的解,由(2)式:
最小二乘估计的性质
设Y,Z为随机向量,A,B为常数矩阵,有下面两个常用结论:
- E(AY)=AE(Y)
- cov(AY,BZ)=Acov(Y,Z)BT
性质一
β̂
是
β
线性无偏估计
proof.
由(1),
β̂
是Y的线性函数,故为线性估计。
性质二
cov(β̂ ,β̂ )=σ2(X′X)−1=σ2N−1
proof.
可见 β̂ 的各分量在一般情况下并不独立
对任一k+1维向量 C=(c0,c1,…,ck)′ ,若存在n维向量L,使 E(L′Y)=C′β ,则称 C′β 为可估函数,而可估函数 C′β 的最小方差线性无偏估计,称为它的最好线性无偏估计(Best Linear Unbiased Estimate,BLUE)
性质三 (Gauss-Markov定理):
C′β̂
是
C′β
的最好线性无偏估计,其中
β̂
是
β
的最小二乘估计,
proof.
由性质1易见
C′β̂
是
C′β
的无偏估计,它显然是Y的线性函数,只需证明对
C′β
的任一线性无偏估计
T=L′Y
,有
var(T)≥var(C′β̂ )
.
设
T=L′Y
是
C′β
的无偏估计,则对任意
β
有:
∴L′X=C′
注意到性质二,有
及
由于T是 C′β 的线性无偏估计,所以 C′β̂ 是 C′β 的BLUE。
Gauss-Markov定理指出, C′β̂ 在 C′β 的一切线性无偏估计中是方差最小的,但在 C′β 的一切无偏估计中不一定方差最小。如果在正态性条件下,, C′β̂ 是UMVUE。
性质四 在正态条件下,
C′β̂
是
C′β
的一致最小方差无偏估计(UMVUE)。(UMVUE定义参看数理统计基础一文)
该性质证明需要用到的结论较多,故不证。
σ2 的估计
由最小二乘估计原理知道,在线性模型
(Y,Xβ,σ2In)
中,
β
用它的最小二乘估计
β̂
代替时,Q达到最小,记
表示n个试验点处Y的回归值,
表示实际观测值Y与它的回归值之差,称为 残差,关于残差有如下性质
性质五
1.
E(ε̂ )=0
2.
cov(ε̂ ,ε̂ )=σ2(In−X(X′X)−1X′)
3.
cov(β̂ ,ε̂ )=0
1.式显然成立,下证另外两式。
记
这里 A=In−X(X′X)−1X′
不难验证A是对称幂等阵
几何意义
下面给出最小二乘估计几 β̂ 与残差 ε̂ 的几何意义。如果把某个随机变量的n个观测值看成n维欧氏空间的一个向量,在此空间中,向量Y的长度定义为 ||Y||=Y′Y‾‾‾‾√ ,两个向量的距离定义为 ||Y1−Y2||
记设计矩阵的列向量为
X0,X1,⋯,Xk
,是n维欧氏空间中的k+1个向量,它们的线性组合构成了n维空间的一个线性子空间,记为
ℒ(X)
,对任一向量
β̂ ,Xβ̂ ∈ℒ(X)
,因此β的最小二乘估计
β̂
就是在
ℒ(X)
中寻找一个向量
Xβ̂
使得相应的
ε̂
长度最短,这仅当
Xβ̂
是
Y
在
![](/images/projection.png)
为空间 ℒ(X) 上的投影阵(projective matrix),或帽子阵(hat matirx),容易看出,投影阵具有对称性,幂等性。(投影阵性质特殊,可以将(n+1)维欧氏空间的向量投影到n维超平面上,是向量投影运算的一般化,在其他领域如CV等应用广泛,请特别留意)
当 β̂ 是 β 的最小二乘估计时, ε̂ 表示Y到 ℒ(X) 的垂线,性质五的3式表示 Ŷ 与 ε̂ 相互垂直,
记残差向量的长度平方,即
为残差平方和
(4)
上式说明残差向量 ε̂ 与估计量 Ŷ 的长度平方和等于观测向量 Y 的长度平方,同时也给出了
残差 ε̂ 与随机误差 σ2 有关,所以用 Qe=||ε̂ ||2 来估计 σ2 是合理的。
证明残差的平方和与
σ2
的无偏估计之间关系,要用到下面三个结论
1. 设n维随机向量Y,有
E(Y)=a,cov(Y,Y)=σ2In,A
为n阶对称常数阵,有
2. 设A,B是两个使乘积AB,BA都为方阵的矩阵,则
3. tr(A+B)=tr(A)+tr(B)
性质六 记
称为残差方差(Residual Variance),有
proof.
由(4)式及上面三个结论,有:
由此即得
性质七 在正态性条件下
1.
β̂ ,ε̂
相互独立,且
β̂ ∼N(β,σ2N−1),ε̂ ∼N(0,σ2A)
2.
β̂ ,Qe
相互独立
3.
Qeσ2∼χ2(n−k−1)
由性质一,二,五知1.2.显然成立下证3.
proof.
注意到 A=In−X(X′X)−1X′ ,容易验证
因此
可见,残差平方和是随机误差 ε 的二次型。
因为矩阵A是对称幂等阵,因此一定存在一个n阶正交阵 Γ ,使 A=ΓTΛΓ, 其中 Λ=diag(λ1,⋯,λn),λ1,⋯,λn 是A的特征根,且 λi 非0即1,非零个数为 rank(A)=tr(A)=n−k−1, 不妨设为 λ1=⋯=λn−k−1=1 ,记 e=Γε/σ ,由 ε∼N(0,σ2In) 及 Γ 的正交性可知 e∼N(0,In) ,即 e=(e1,⋯,en)′ 中每个分量 ei 独立,都服从 N∼(0,1) ,故
性质八 若
ε∼N(0,σ2In)
,则
β
的最小二乘估计
β̂
也是
β
的极大似然估计,
σ2
的极大似然估计为
Qe/n
proof.
ε∼N(0,σ2In),Y∼N(Xβ,σ2In)
,有定义,Y有密度函数
因此
令它们为0,解得它们的极大似然估计为:
广义最小二乘估计
在线性回归模型
(Y,Xβ,σ2In)
中,我们假定各次观测独立进行,即
我们考虑更一般的情况
其中Q是已知的对称阵,且 |Q|≠0 ,将相应的线性回归模型记为 (Y,Xβ,σ2Q)
定义:设A是一个n阶复矩阵,如果存在一个n阶复矩阵B使 A=B2 ,则称B是A的平方根矩阵,记为 B=A‾‾√
为了求未知参数
β,σ2
的最小二乘估计,作变换
Z=Q−1/2Y,U=Q−1/2X
,那么
这样,线性回归模型 (Y,Xβ,σ2Q) 便化为 (Z,Uβ,σ2In) ,这是前面已经讨论的情况,可得正规方程组
记 P=Q−1
那么
这就是 β 的最小二乘估计,称为广义最小二乘估计。
那么
残差平方和
平方和分解公式
记:
Syy=∑(yi−y¯)2=||Y−1y¯||2
称为总变差平方和(总体平方和,Total Sum of Squares,TSS),
Qe=||Y−Ŷ ||2
称为残差平方和(Residual Sum of Squares,RSS),
U=||Ŷ −1y¯||2=∑(ŷ i−y¯)2
称为表示回归值
ŷ i
的波动,称为回归平方和(Explained Sum of Squares,ESS,Sum of Squares of Regression)
将
称为平方和分解公式
事实上:
引用之前的A,P(投影阵)记号,显然 AP=0 ,又 (Y−Ŷ )′1=0
得证。
参考资料
- 应用数理统计(第二版) 关静,张玉环,史道济 主编