一. 高斯马尔科夫定理是什么
高斯马尔科夫定理说:对于线性回归模型,在某些约束条件下,由最小二乘法得到的估计量(估计子),即线性回归模型的系数,是最优的线性无偏估计子。也就是说高马解决的问题是线性回归模型,他的作用是给出线性模型的系数估计。
1. 线性回归模型:
其中:
是
的输出列向量(待求的数据);
是
的输入矩阵(测量的数据);
是
的列向量(待求回归系数);
是
的误差列向量(测量误差)。
直观的例子,比如根据学生的英语,数学,物理成绩预测他的地理成绩。高马说,最小二乘法估计的回归系数可以最准确地给出预测。由最小二乘得到的系数估计量为(下次来说为什么)(此时的 和
是测量的已知数据。):
但是要满足如下的假定 (就是定理中的约束):
(1). 满秩(只有满秩
才可逆);
(2).误差期望为0:
(3).各向同性协方差矩阵:;
断言: 是最优的线性无偏估计子。
这些假定是说,你测量的数据要是满秩的,测量数据的误差期望得是0,误差的协方差得是各向同性的。只有这样,高马才能给出最优的线性无偏估计子。
二. 为什么是他
要说明为什么最小二乘法得到的 是最优的线性无偏估计子,需要说明三个问题,即线性,无偏,最优。
1.线性性
关于
是线性的,故线性性得证。
2.无偏性
无偏即估计量的期望值要和真实的参数值相同。也就是证明:
下面给出期望值的推导过程。首先,估计量
,
根据假定(2),两边同时取条件期望,有
利用重期望公式,, 从而
是无偏估计量。无偏性得证。
3. 最优性
最优性是说在所有的线性无偏估计子中,
有最小的方差(单变量)或协方差(多元)。因为是多次实验得到的估计量,所以考虑方差是有意义的。
需要证明:, 即
, 即协方差矩阵(多元)是半正定的。
我们设一般的线性估计子为:。其中
是
的矩阵。下面来看该估计子的无偏性。
用最小二乘估计子和一般线性估计子作差,即,那么
可用最小二乘估计子表示:
.
两边取条件期望:
注意这里和
都是已知的矩阵,因为
是系数的差,而系数都是常值。
也是已知向量。从期望看出,
是无偏估计量的充要条件是
,对任何
都成立的话,只能
。下面来看协方差。
这里用到约束(3):。那么,
,由
的构造知,
半正定。从而最优性得证。