回归模型补充
【1】扰动项满足的条件
在上一节的回归分析时我们都是默认了扰动项是球形扰动项
球型扰动项:满足“同方差”和“无自相关”两个条件。
- 同方差性
- 无自相关
横截面数据容易出现异方差的问题;
时间序列数据容易出现自相关的问题。
【2】异方差
如果干扰项存在异方差会出现
- OLS估计出来的回归系数是无偏的,一致的。
- 假设检验无法使用(构造的统计量无效)
- OLS估计量不是最优线性无偏估计量
如何解决
- OLS+稳健的标准误
- GLS(广义最小二乘法)
【3】检验异方差
1. 图形检验(大致)
rvfplot (画残差与拟合值的散点图)
观察发现,拟合值越大,残差分布越散,越不集中,存在异方差现象
rvpplot x (画残差与自变量x的散点图)
2. BP检验
H
H
H0:不存在异方差
Stata命令(在回归结束后使用):
estat hettest ,rhs iid
3.怀特检验
H
H
H0:不存在异方差
代码:
Stata命令(在回归结束后使用):
estat imtest,white
【4】 解决异方差
(1)使用OLS + 稳健的标准误
如果发现存在异方差,一 种处理方法是,仍然进行OLS 回归,但使用稳健标准误。这是最简单,也是目前通用的方法。只要样本容量较大,即使在异方差的情况下,若使用稳健标准误,则所 有参数估计、假设检验均可照常进行。换言之,只要使用了稳健标准误,就可以与异方差“和平共处”了。
regress y x1 x2 … xk,robust
除去异方差后发现多个都满足显著性
(2)广义最小二乘法GLS
原理:方差较大的数据包含的信息较少,我们可以给予信息量大的数据(即方差较小的数据更大的权重)
缺点:我们不知道扰动项真实的协方差矩阵,因此我们只能用样本数据来估计,这样得到的结果不稳健,存在偶然性。
Stock and Watson (2011)推荐,在大多数情况下应该使用“OLS + 稳健标准误”。
【5】多重共线性
##【6】检验多重共线性
代码:
estat vif
【7】解决多重共线性
如果发现存在多重共线性,可以采取以下处理方法。
(1)如果不关心具体的回归系数,而只关心整个方程预测被解释变量的能力,则通常可以 不必理会多重共线性(假设你的整个方程是显著的)。这是因为,多重共线性的主要后果是使得对单个变量的贡献估计不准,但所有变量的整体效应仍可以较准确地估计。
(2)如果关心具体的回归系数,但多重共线性并不影响所关心变量的显著性,那么也可以不必理会。即使在有方差膨胀的情况下,这些系数依然显著;如果没有多重共线性,则只会更加显著。
(3) 如果多重共线性影响到所关心变量的显著性,则需要增大样本容量,剔除导致严重共线性的变量(不要轻易删除哦,因为可能会有内生性的影响),或对模型设定进行修改
【8】逐步回归分析
(1)概念及代码
向前逐步回归Forward selection:将自变量逐个引入模型,每引入一个自变量后都要进行检验,显著时才加入回归模型。
(缺点:随着以后其他自变量的引入,原来显著的自变量也可能又变为不显著了,但是,并没有将其及时从回归方程中剔除掉。)【不常用】
向前逐步回归Forward selection:
stepwise regress y x1 x2 … xk, pe(#1)
pe(#1) specifies the significance level for addition to the model; terms with p<#1 are
eligible for addition(显著才加入模型中)
向后逐步回归Backward elimination:与向前逐步回归相反,先将所有变量均放入模型,之后尝试将其中一个自变量从模型中剔除,看整个模型解释因变量的变异是否有显著变化,之后将最没有解释力的那个自变量剔除;此过程不断迭代,直到没有自变量符合剔除的条件。(缺点:一开始把全部变量都引入回归方程,这样计算量比较大。若对一些不重要的变量,一开始就不引入,这样就可以减少一些计算。当然这个缺点随着现在计算机的能力的提升,已经变得不算问题了)【常用】
向后逐步回归Backward elimination:
stepwise regress y x1 x2 … xk, pr(#2)
pr(#2) specifies the significance level for removal from the model; terms with p>= #2
are eligible for removal(不显著就剔除出模型)
如果你觉得筛选后的变量仍很多,你可以减小#1或者#2
如果你觉得筛选后的变量太少了,你可以增加#1或者#2
注: (1)x1 x2 … xk之间不能有完全多重共线性(和regress不同哦) (2)可以在后面再加参数b和r,即标准化回归系数或稳健标准误
(2)完全多重共线性的错误
(3) 逐步回归的说明
(1)向前逐步回归和向后逐步回归的结果可能不同。
(2)不要轻易使用逐步回归分析,因为剔除了自变量后很有可能会产生新的问
题,例如内生性问题。
(3)有没有更加优秀的筛选方法?有的,那就是每种情况都尝试一次,最终一
共有2k-1种可能。如果自变量很多,那么计算相当费时.