今晚在做回归分析的时候,在一道有关中心化的题目里面纠结了一个晚上,最终发现对于中心化的理解错误,于是打算把我的理解分享出来。
原题: 在满足高斯-马尔可夫条件的一元线性回归中,对自变量 X 和因变量 Y 做中心化处理,并使用最小二乘估计得到系数的估计值,则:
(1)推导误差项 ε 的方差 σ 2 的无偏估计。
(2)若高斯-马尔可夫条件中 Cov (εi , εj ) = 0, i ̸= j 被违背,即误差项出现自相关性 的情况下,εi = ρ*εi−1 + ui,其中 ui 是满足高斯-马尔可夫条件的误差项,推导(1)中 σ 2 估计的期望。
答案:
但是我卡在推导第二问的第一个式子。在推导的时候,我把中的省略了,认为,则方差与协方差均为0,最终结果少了一个。经过一晚上的思考,我发现我对中心化理解有误。
已知 独立同分布,,服从。中心化是指 在已知一组数据的情况下,将每个做以下的变换:
最终得到,, 其均值。
可以证明出,
但是这违背了常识:易证,但是均值的方差却不为各项方差之和。因为此时的各都减去了,不相互独立,协方差不为0。因为此时把看成了一个随机变量。中心化后的数据违背了回归分析的前提假设,各的协方差不为0。
在实际中,是根据已经抽取出的算得的固定值,并不为随机变量,此时根据最大似然估计原则,设定,。,因此有:
此时满足回归分析的前提假设:各的协方差不为0。
在此问题中,已经经验化的假设了,。此时回归方程为,由一元回归的公式可知: , , 。
因此(以下方程中, 用 代替):
假设此处 ,将 ,代入,化简后即可得到公式(3)。