【应用回归分析】CH3 回归参数的估计4——回归诊断

目录

前言

一、概述

二、残差分析

1.前言

2.残差向量的性质——【定理3.4.1】

(1)定理内容

(2)定理说明

3.【例3.4.1】

三、影响分析 

1.前言

2.【定理3.4.2】

(1)内容

(2)证明

(3)说明

 3.【例3.4.2】智力测试数据


前言

https://www.zhihu.com/question/67493742/answer/2339920091

一、概述

        在前面几节,我们讨论了线性回归模型的最小二乘估计,并证明了它的一些优良性质。当进行上述讨论时,我们对模型做了一些假设,其中最主要的是Gauss-Markov假设,即假定模型误差e_{i}满足下列条件:

  • E(e_{i})=0;
  • Var(e_{i})=\sigma^2(等方差)
  • Cov(e_{i},e_{j})=0,i\neq j(不相关)

        对于涉及到估计量统计分布的一些性质时,我们还假设了e_{i}服从正态分布,即e_{i}\sim N(0,\sigma^2)。这里有一个重要问题,就是在一个具体场合,当有了一批实际数据之后,怎样考察我们的数据基本上满足这些假设,这就是回归诊断中要研究的第一个问题因为这些假设都是关于误差项的,所以很自然我们要从分析他们的“估计量”——残差的角度来解决正是这个原因,这部分内容在文献中也成为残差分析

        回归诊断所要研究的另一个重要问题,是探查对参数估计或预测有异常大的影响的数据,这样的数据称为强影响数据。因为一组数据对应空间中的一个点,所以也称给强影响点。在回归分析中,因变量Y的取值y_{i}具有随机性,而自变量X_{1},X_{2},\cdots,X_{p-1}的取值

x^{'}=(x_{i1},\cdots,x_{i,p-1}),i=1,\cdots,n

 也只是许多可能取到的值中的n组。我们希望每组数据(x_{i}^{'},y_{i})对未知参数的估计有一定的影响,但这种影响不能过大。这样,我们得到的经验回归方程就具有一定的稳定性。否则,如果个别一两组数据对估计有异常大的影响,当我们剔除这些数据之后,就能得到与原来差异很大经验回归方程,这样我们就有理由怀疑所建立的经验回归方程是否真正描述了因变量与诸自变量之间的客观存在的相依关系。正是这个原因,我们在做回归分析时,有必要考察每组数据对参数估计的影响大小。这部分内容在回归诊断中,统称为影响分析影响分析只是研究强影响数据的统计方法,至于对已确认的强影响数据如何处理,这需要具体问题具体分析,往往先要仔细核查数据获取的全过程,如果强影响数据是由于试验条件失控或记录失误或其他一些过失所致,那么这些数据应该剔除。否则,应该考虑收集更多的数据(从几何上讲,这些数据应该跟强影响数据比较接近)或采用一些稳健估计方法以缩小强影响数据对估计的影响,从而获得较稳定的经验回归方程。

二、残差分析

1.前言

        回归诊断是一个很复杂的问题,实施起来有点像医生给病人诊病,有时一个症状往往是多种不同疾病的征兆,必须从多方面做检查分析,才能断言毛病出在什么地方。在这方面,理论虽然起一定指导作用,但“临床”经验是十分重要的,这一点从后面的讨论中可以看到。我们先讨论第一个问题——残差分析。

        考虑线性回归模型

y=X\beta +e,E(e)=0,Cov(e)=\sigma^2I(3.4.1)

如果用x_{1}^{'},x_{2}^{'},\cdots,x_{n}^{'}表示Xn个行向量,在\S 3.2我们已经定义

\hat{e_{i}}=y_{i}-x^{'}\hat{\beta },i=1,2,\cdots,n(3.4.2)

为第i次试验或观测的残差。我们把残差\hat{e_{i}}看作误差e_{i}的一次观测值,如果模型(3.4.1)正确,他应该具有e_{i}的一些性状,因此我们应该首先研究残差的性质

        记\hat{y}=X\hat{\beta },称\hat{y}为拟合值向量,称其第i个分量\hat{y_{i}}=x_{i}^{'}\hat{\beta }为第i个拟合值,则

y=X(X^{'}X)^{-1}X^{'}y=^{d}Hy(3.4.3)

 这里H=X(X^{'}X)^{-1}X^{'}。从上式看出,H作用在观测向量y上是给y戴上了帽子"\Lambda ",故文献中通常称H为帽子矩阵。容易验证,帽子矩阵H满足

H^{'}=H,H^2=H(3.4.4)

即帽子矩阵是一个对称幂等阵。利用帽子矩阵H,残差向量\hat{e}可表为 

{\color{Red} \hat{e}=y-\hat{y}=(I-H)y=(I-H)(X\beta +e)=(I-H)e(3.4.5)}{\color{Blue} ((I-H)X=X-HX=X-X(X^{'}X)^{-1}X^{'}X=0)}

        从这个表达式我们很容易证明残差向量的下列重要性质。

2.残差向量的性质——【定理3.4.1】

(1)定理内容

(a)E(\hat{e})=0 ,Cov(\hat{e})=\sigma ^2(I-H);

(b)若进一步假设误差服从正态分布,即e\sim N(0,\sigma^2 I),则\hat{e}\sim N(0,\sigma ^2(I-H)).

{\color{Blue} proof:}

{\color{Blue} (a)(3.4.5)\Rightarrow E(\hat{e})=E((I-H)e)=(I-H)E(e)=0}{\color{Blue} ,Cov(\hat{e})=(I-H)Cov(e)(I-H)^{'}=\sigma ^2(I-H)}

{\color{Blue} (b)e\sim N(0,\sigma ^2I),(3.4.5)\Rightarrow \hat{e}\sim N(0,\sigma ^2(I-H))} 

(2)定理说明

        我们看到Var(\hat{e_{i}})=\sigma ^2(1-h_{ii}),这里的h_{ii}H的第i个对角元,可见一般情况下残差\hat{e_{i}}的方差不相等,这有碍于\hat{e_{i}}的实际应用,将其标准化为\frac{\hat{e_{i}}}{\sigma \sqrt{1-h_{ii}}},再用\hat{\sigma }代替\sigma,得到所谓的学生化残差

r_{i}=\frac{\hat{e_{i}}}{\hat{\sigma }\sqrt{1-h_{ii}}},i=1,\cdots,n(3.4.6)

这里,\hat{\sigma }^2=\frac{RSS}{n-p}。即使在e\sim N(0,\sigma ^2I)条件下,r_{i}的分布仍然比较复杂,但可以近似的认为r_{i}相互独立且服从N(0,1)(详细讨论见陈希孺等(1987))。于是我们可以断言当e\sim N(0,\sigma ^2I)时,学生化残差r_{1},r_{2},\cdots,r_{n}近似地看作来自总体N(0,1)的一组随机样本。根据正态分布的如下性质:若随机变量U\sim N(\mu,\sigma ^2),则

P(\mu -2\sigma <U<\mu +2\sigma)=95.4% 

对于现在的情形,\mu =0,\sigma =1。于是,大约有95.4%r_{i}落在区间[-2,2]中。另外,我们可以证明,拟合值向量\hat{y}与残差\hat{e}相互独立,因为与学生化残差r_{1},r_{2},\cdots,r_{n}也独立。所以,如果我们以拟合值\hat{y_{i}}为横轴,r_{i}为纵轴,那么平面上的点(\hat{y_{i}},r_{i}),i=1,2,\cdots,n大致应落在宽度为4的水平带\left | r_{i} \right |\leqslant 2区域内,且不呈现任何趋势,如图3.4.1(a)。这样的以残差为纵轴而拟合值或其他量为横轴的图称为残差图,这是回归诊断的一个重要工具。 如果残差图具有图3.4.1(a)的形状,则我们可以认为,现在我们手头的数据与假设e\sim N(0,\sigma ^2I)没有明显不一致的征兆。我们就可以认为,假设e\sim N(0,\sigma ^2I)基本上是合理的。而图3.4.1(b)-(d)显示了误差等方差,即

Var(e_{i})=\sigma ^2,i=1,2,\cdots,n

不满足。其中图(b)表示了误差方差随\hat{y_{i}}的增大而有增大的趋势,而图(c)所表示的情形正好相反,即误差方差随\hat{y_{i}}的增大而减小。但是图(d)表示对较大或较小的\hat{y_{i}},误差方差偏小,而对中等大小的\hat{y_{i}},误差方差偏大。图(e)和(f)表明回归函数可能是非线性的,或误差e_{i}之间有一定的相关性或漏掉了一个或多个重要的回归自变量。对于一批实际数据,这样的残差图究竟反映了哪一种情况,还需要做进一步的诊断。这种由一种“症状”可能产生多种“疾病”的情况正是回归诊断的困难所在,在具体处理时,和医生治病一样,临床经验是很重要的。

        上面我们讲的是以拟合值\hat{y_{i}}为横坐标的残差图。为了从不同的角度分析残差,我们可以做其它一些残差图。例如,如果因变量是按时间顺序测量的,那么y_{1},y_{2},\cdots,y_{n}表示了分别在时刻t=t_{1},t_{2},\cdots,t_{n}的因变量观测值,则我们可以取时间t或观测序号为X轴,构造(t_{i},r_{i})(i,r_{i})的残差图。又譬如,我们也可将某个自变量X_{j}取做X轴等。不同的残差图可能从不同角度提供一些有用信息。

        从残差图诊断出来可能的“疾病”,也就是某些假设条件不成立,我们就需要对问题对症下药。

        如果有症状使我们怀疑因变量Y对自变量的依赖不仅仅是线性关系,那么我们就可以考虑在回归自变量中增加某些自变量的二次项,如X_{1}^2X_{2}^2或交叉项X_{1}X_{2}等。至于增添哪些变量的二次项和哪些变量的交叉项,这就要通过对实际问题的分析或实际计算,看其实际效果。若增加二次项X_{1}^2X_{2}^2和交叉项X_{1}X_{2},可以通过引进新变量Z_{1}=X_{1}^2,Z_{2}=X_{2}^2,Z_{3}=X_{1}X_{2},把问题转化成线性回归模型。

        如果残差图显示了误差方差不相等,我们可以有两种“治疗方案” 。其一是对因变量做变换,使变换过的新变量具有近似相等的方差,重要的问题时如何选择所要做的变换。虽然在理论上有一些原则可遵循(参阅陈希孺等(1987)p.122),但在实际应用中还是要靠对具体情况的分析,提出一些可选择的变换,然后通过实际计算比较它们的客观效果。另一种方法是应用加权最小二乘估计,这将在\S 3.6讨论。另外,还有一种因变量的变换,它是从综合角度考虑(即要求对因变量变换过之后,新的因变量关于诸自变量线性相依关系,且误差服从正态、等方差、相互独立等)提出一种“治疗方案”,在实际应用上效果比较好,这就是著名的Box-Cox变换,这将在下一节讨论。

        为了既简单又能说明问题,下面我们看一个一元线性回归的例子。

3.【例3.4.1】

        一公司为了研究产品的营销策略,对产品的销售情况进行了调查,设Y表示某地区该产品的家庭人均购买量(单位:元),X表示家庭人均收入(单位:元)。表3.4.1记录了53个家庭的数据。

        应用最小二乘法,求得YX的一元经验回归方程为\hat{Y}=-0.8313+0.003683X。相应的残差\hat{e_{i}}和拟合值\hat{y_{i}}也列在表3.4.1中,图3.4.2是以\hat{y_{i}}为横纵,残差\hat{e_{i}}为纵轴的残差图。直观上容易看出,残差图从左向右逐渐散开呈漏斗状,这是误差方差不相等的一个征兆。考虑对因变量Y作变换,先试变换Z=Y^{\frac{1}{2}},得到经验回归方程\hat{Z}=0.5822+0.000953X,计算新的残差\tilde{e_{i}},残差图画在图3.4.3,已无任何明显趋势,这表明我们所用的变换是合适的,做后得到的经验回归方程为

\hat{Y}=\hat{Z^2}=(0.5822+0.000953X)^2=0.3390+0.0011X+0.00000091X^2

三、影响分析 

1.前言

        现在我们讨论回归诊断的第二个问题:影响分析。即探查对估计量或预测有异常大影响的数据。为此,我们先引进一些记号,用y_{(i)},x_{(i)},e_{(i)}分别表示从Y,X,e剔除第i行所得到的向量或矩阵。从线性回归模型(3.4.1)剔除第i组数据后,剩余的n-1组数据的线性回归模型为

y_{(i)}=X_{(i)}\beta +e_{(i)},E(e_{(i)})=0,Cov(e_{(i)})=\sigma^2 I_{n-1}(3.4.7)

将从这个模型求到的\beta的最小二乘估计记为\hat{\beta _{(i)}},则\hat{\beta _{(i)}}=(X_{(i)}^{'}X_{(i)})^{-1}X_{(i)}^{'}y_{(i)}(3.4.8)。很显然,向量\hat{\beta }-\hat{\beta_{(i)} }反应了第i组数据对回归系数估计的影响大小,但它是一个向量,应用上不便于使用,于是需要考虑它的某种数量化函数。Cook统计量就是其中应用最广泛的一种。

        Cook统计量的定义为:

 D_{i}=\frac{(\hat{\beta }-\hat{\beta _{(i)}})^{'}X^{'}X(\hat{\beta }-\hat{\beta _{(i)}})}{p\hat{\sigma }^2},i=1,\cdots,n(3.4.9)

 这里\hat{\sigma }^2=\frac{\left \| y-X\hat{\beta } \right \|^2}{n-p}。于是,对每一组观测数据,我们可以有一个数量D_{i}来刻画他对回归系数估计影响的大小。但要从(3.4.9)计算D_{i},i=1,2,\cdots,n很不方便,它需要计算\hat{\beta },\hat{\beta _{(1)}},\cdots,\hat{\beta _{(n)}},因而需要计算n+1个回归,计算量太大,下面的定理提供了D_{i}的简便公式,它只需要计算完全数据的线性回归模型(3.4.1)

2.【定理3.4.2】

(1)内容

D_{i}=\frac{1}{p}\left ( \frac{h_{ii}}{1-h_{ii}} \right )r_{i}^2,i=1,\cdots,n(3.4.10)

这里h_{ii}是帽子矩阵H=X(X^{'}X)^{-1}X^{'}的第i个对角元,r_{i}是学生化残差。 

(2)证明

{\color{Blue} proof:}

(3)说明

        这个定理表明,在计算Cook统计量时,我们只需要从完全数据的线性回归模型算出学生化残差r_{i},帽子矩阵的对角元h_{ii}就可以了,并不必对任何一个不完全数据的线性回归模型(3.4.7)进行计算。

        在(3.4.10)中,若不考虑与i无关的因子\frac{1}{p},则Cook统计量D_{i}被分解成两部分,其中一部分为P_{i}=\frac{h_{ii}}{1-h_{ii}},它是h_{ii}的单调增函数,因为h_{ii}度量了第i组数据x_{i}到试验中心\bar{x}=\frac{1}{n}\sum_{i=1}^{n}x_{i}的距离。因此,本质上P_{i}刻画了第i组数据距离其它数据的远近,而另一部分为r_{i}^2。直观上,如果一组数据距离试验中心很远,并且对应的学生化残差有很大,那么它必定是强影响数据。但是,要给 Cook统计量一个用于判断影像数据的临界值是很难的,在应用上要视具体问题的实际情况而定。

 3.【例3.4.2】智力测试数据

 表3.4.2是教育学家测试的21个儿童的记录,其中X是儿童的年龄(以月为单位),y表示某种智力指标,通过这些数据,我们要建立智力随年龄变化的关系。

         考虑直线回归y=\alpha +\beta X+e\alpha ,\beta的最小二乘估计分别为\hat{\alpha }=109.87,\hat{\beta }=-1.13,于是经验回归直线为\hat{Y}=109.87-1.13X,表3.4.3给出了各组数据的残差\hat{e_{i}}

         从表3.4.3看出,残差\hat{e_{19}}=30.2850,\hat{r_{19}}=2.8234。它们明显地远远大于其他点对应量的绝对值,这表明第19好数据在残差图上会远离其它点,表现出异常。然而D_{19}=0.2233<<D_{18}=0.6781,而其他D_{i}值与D_{18}相比也十分小。因此,第18号数据是一个对回归估计影响很大的数据,对这个数据我们要格外注意。譬如,检查原始数据的抄录是否有误,如果有误,则需要改正后重新计算,不然,需要从原数据中剔除它。


  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值