关于回归分析中,中心化(零均值化)的理解

文章讨论了在进行回归分析时,关于中心化处理的误解,尤其是在误差项存在自相关性和中心化后数据依赖性增强的情况。作者纠正了中心化过程中忽略协方差的错误,并解释了如何在实际中考虑非随机变量的中心化处理以符合回归分析的前提假设。
摘要由CSDN通过智能技术生成

        今晚在做回归分析的时候,在一道有关中心化的题目里面纠结了一个晚上,最终发现对于中心化的理解错误,于是打算把我的理解分享出来。

原题: 在满足高斯-马尔可夫条件的一元线性回归中,对自变量 X 和因变量 Y 做中心化处理,并使用最小二乘估计得到系数的估计值,则:

(1)推导误差项 ε 的方差 σ 2 的无偏估计。

(2)若高斯-马尔可夫条件中 Cov (εi , εj ) = 0, i ̸= j 被违背,即误差项出现自相关性 的情况下,εi = ρ*εi−1 + ui,其中 ui 是满足高斯-马尔可夫条件的误差项,推导(1)中 σ 2 估计的期望。

答案:

        但是我卡在推导第二问的第一个式子。在推导的时候,我把\tilde{y _i} = \tilde{\beta _0} + \tilde{\beta _1} * x _i中的\tilde{\beta _0}省略了,认为\tilde{\beta _0} = 0,则方差与协方差均为0,最终结果少了一个- \sigma ^2。经过一晚上的思考,我发现我对中心化理解有误。

        已知 y_1 , y_2 ... y_n独立同分布,y_i = \beta_0 + \beta_1 * x_i + \varepsilon _i,y_i服从N (\beta_0 + \beta_1 * x_i , \delta^2)。中心化是指 在已知一组数据的情况下,将每个y_i做以下的变换:

{x}'_i = x_i - \bar{x} , {y}'_i = y_i - \bar{y}

        最终得到{y}'_1 , {y}'_2 ... {y}'_n,y_i = \beta_0 + \beta_1 * {x_i}' + \varepsilon _i, 其均值\bar{​{y}'} = 0

        可以证明出,Var(\bar{​{y}'}) = 0

 \bar{​{y}} = \beta_0 +\frac{1}{n}* \beta_1 * \sum {x_i} +\frac{1}{n} \sum \varepsilon _i

{y}'_i = y_i - \bar{​{y}} = \beta_1 * (x_i - \bar{x}) + \varepsilon _i - \frac{1}{n} \sum \varepsilon _j

\bar{​{y}'} = \frac{1}{n} \sum {y_i}'= \sum \varepsilon _i - \sum \varepsilon _j = 0

        但是这违背了常识:易证Var({y}'_i) = \sigma ^2,但是均值的方差却不为各项方差之和。因为此时的各{y}'_i都减去了\bar{y},不相互独立,协方差不为0。因为此时把\bar{y}看成了一个随机变量。中心化后的数据违背了回归分析的前提假设,各\varepsilon_i的协方差不为0。

        在实际中,\bar{y}是根据已经抽取出的{y}'_1 , {y}'_2 ... {y}'_n算得的固定值,并不为随机变量,此时根据最大似然估计原则,设定\varepsilon _i =0\bar{​{y}} = \beta_0 +\frac{1}{n}* \beta_1 * \sum {x_i}。,因此有:

\bar{​{y}} = \beta_0 +\frac{1}{n}* \beta_1 * \sum {x_i}

{y}'_i = y_i - \bar{​{y}} = \beta_1 * (x_i - \bar{x}) + \varepsilon _i

\bar{​{y}'} = \frac{1}{n} \sum {y_i}'= \frac{1}{n} \sum \varepsilon _j

Var(\bar{​{y}'}) = \frac{\sigma ^2}{n}

        此时{y}'_i满足回归分析的前提假设:各\varepsilon_i的协方差不为0。

        在此问题中,已经经验化的假设了\beta ^{new} _0 =0{y}'_i =\beta_1 * (x_i - \bar{x}) + \varepsilon _i。此时回归方程为\tilde{y_i} = \tilde{\beta_0} + \tilde{\beta_1} * \tilde{x_i},由一元回归的公式可知: \tilde{\beta_0} = \bar{​{y}'} - \tilde{\beta_1} * \bar{​{x}'} =\bar{​{y}'}E(\tilde{\beta_0}) =\beta ^{new} _0 =0Var(\tilde{\beta_0}) = Var(\bar{​{y}'}) = \frac{\sigma ^2}{n}

        因此(以下方程中,{x}'_i ,{y}'_i 用 {x}_i ,{y}_i代替):

 \begin{align*} E(\delta ^2) &= \frac{1}{n-2} \sum (y_i - \tilde{y_i})^2\\ &=\frac{1}{n-2} \sum (\beta _1 * x_i + \epsilon _i - \tilde{\beta_0} - \tilde{\beta_1} * x_i)^2 \end{align*}

        假设此处 E(\varepsilon _i ^2) = \delta ^2,将 \tilde{\beta _1} = \beta_1 + \frac{\sum x_t \varepsilon _t}{\sum x_t ^2}\tilde{\beta_0}=\bar{​{y}} = \frac{1}{n} \sum \varepsilon _j代入,化简后即可得到公式(3)。

     

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值