高斯马尔科夫定理

最新推荐文章于 2024-09-23 16:27:47 发布

my-GRIT

最新推荐文章于 2024-09-23 16:27:47 发布

阅读量2.4w

点赞数 10

分类专栏：统计文章标签：统计线性回归最小二乘高斯马尔科夫定理

原文链接：https://www.statlect.com/fundamentals-of-statistics/Gauss-Markov-theorem

版权

统计专栏收录该内容

1 篇文章

订阅专栏

一. 高斯马尔科夫定理是什么

高斯马尔科夫定理说：对于线性回归模型，在某些约束条件下，由最小二乘法得到的估计量（估计子），即线性回归模型的系数，是最优的线性无偏估计子。也就是说高马解决的问题是线性回归模型，他的作用是给出线性模型的系数估计。

1. 线性回归模型：

$y=X\beta +\epsilon$

其中:

是 $n\times 1$ 的输出列向量（待求的数据）；

是 $n \times k$ 的输入矩阵（测量的数据）；

$\beta$ 是 $k \times 1$ 的列向量（待求回归系数）；

$\epsilon$ 是 $k \times 1$ 的误差列向量（测量误差）。

直观的例子，比如根据学生的英语，数学，物理成绩预测他的地理成绩。高马说，最小二乘法估计的回归系数可以最准确地给出预测。由最小二乘得到的系数估计量为（下次来说为什么）（此时的和是测量的已知数据。）：

$\hat{}\beta}=(X^TX)^{-1}X^Ty.$

但是要满足如下的假定 (就是定理中的约束)：

（1）. 满秩（只有满秩 X^TX 才可逆）；

（2）.误差期望为0： $E[\epsilon|X]=0;$

（3）.各向同性协方差矩阵： $Var[\epsilon|X]=\sigma^2I$ ;

断言： $\hat{\beta}$ 是最优的线性无偏估计子。

这些假定是说，你测量的数据要是满秩的，测量数据的误差期望得是0，误差的协方差得是各向同性的。只有这样，高马才能给出最优的线性无偏估计子。

二. 为什么是他

要说明为什么最小二乘法得到的 $\hat{\beta}$ 是最优的线性无偏估计子，需要说明三个问题，即线性，无偏，最优。

1.线性性

$\hat{}\beta}=(X^TX)^{-1}X^Ty$ 关于是线性的，故线性性得证。

2.无偏性

无偏即估计量的期望值要和真实的参数值相同。也就是证明： $E[\hat{\beta}]=\beta$

下面给出 $\hat{\beta}$ 期望值的推导过程。首先，估计量

$\hat{\beta}=(X^TX)^{-1}X^Ty=(X^TX)^{-1}X^T(X\beta+\epsilon )=\beta+(X^TX)^{-1}X^T\epsilon$ ，

根据假定（2），两边同时取条件期望，有

$E[\hat{\beta}|X]=E[\beta|X]+E[(X^TX)^{-1}X^T\epsilon|X]\\ =\beta+(X^TX)^{-1}X^TE[\epsilon|X]\\ =\beta+0\\ =\beta$

利用重期望公式， $E[\hat{\beta}]=E[E[\hat{\beta}|X]]=\beta$ , 从而 $\hat{\beta}$ 是无偏估计量。无偏性得证。

3. 最优性

最优性是说在所有的线性无偏估计子 $\widetilde{\beta}$ 中， $\hat{\beta}$ 有最小的方差（单变量）或协方差（多元）。因为是多次实验得到的估计量，所以考虑方差是有意义的。

需要证明： $Var[\hat{\beta}|X]\leq Var[\widetilde{\beta}|X]$ , 即 $Var[\hat{\beta}|X]-Var[\widetilde{\beta}|X]\geq 0$ ，即协方差矩阵（多元）是半正定的。

我们设一般的线性估计子为： $\widetilde{\beta}=Cy$ 。其中是 $k\times n$ 的矩阵。下面来看该估计子的无偏性。

用最小二乘估计子和一般线性估计子作差，即 $D=C-(X^TX)^{-1}X^T$ ,那么 $\widetilde{\beta}$ 可用最小二乘估计子表示： $\widetilde{\beta}=Cy=(D+(X^TX)^{-1}X)y=Dy+\hat{\beta}$ .

两边取条件期望：

$E[\widetilde{\beta}|X]=E[Dy+\hat{\beta}|X]\\ =E[Dy|X]+E[\hat{\beta}|X]\\ =E[D(X\beta+\epsilon)|X]+\beta\\ =E[DX\beta|X]+E[D\epsilon|X]+\beta\\ =DXE[\beta|X]+DE[\epsilon|X]+\beta\\ =DX\beta+0+\beta\\ =DX\beta+\beta$

注意这里和都是已知的矩阵，因为是系数的差，而系数都是常值。 $\beta$ 也是已知向量。从期望看出， $\widetilde{\beta}$ 是无偏估计量的充要条件是 $DX\beta=0$ ，对任何 $\beta$ 都成立的话，只能 DX=0 。下面来看协方差。

$Var[\hat{\beta}|X]=Var[Dy+\hat{\beta}|X]\\ =Var[D(X\beta+\epsilon)+\hat{\beta}|X]\\ =Var[DX\beta|X]+Var[D\epsilon|X]+Var[\hat{\beta}|X]\\ =0+DVar[\epsilon|X]D^T+Var[\hat{\beta}|X]\\ =\sigma^2DD^T+Var[\hat{\beta}|X]$