数学建模(NO.12回归模型补充)

本文详细介绍了回归分析中扰动项的条件,强调了异方差性及其对估计结果的影响,包括图形检验、BP检验和怀特检验等诊断方法。为解决异方差,提出了使用OLS+稳健标准误和GLS方法。同时,讨论了多重共线性问题,给出了VIF检验和如何处理多重共线性的建议。最后,简述了逐步回归分析的两种形式及其适用场景,并提醒注意逐步回归可能带来的问题。
摘要由CSDN通过智能技术生成

【1】扰动项满足的条件

在这里插入图片描述
在上一节的回归分析时我们都是默认了扰动项是球形扰动项

球型扰动项:满足“同方差”和“无自相关”两个条件。

  1. 同方差性
    在这里插入图片描述
  2. 无自相关

横截面数据容易出现异方差的问题;
时间序列数据容易出现自相关的问题。

【2】异方差

如果干扰项存在异方差会出现

  1. OLS估计出来的回归系数是无偏的,一致的。
  2. 假设检验无法使用(构造的统计量无效)
  3. OLS估计量不是最优线性无偏估计量

如何解决

  1. OLS+稳健的标准误
  2. GLS(广义最小二乘法)

【3】检验异方差

1. 图形检验(大致)

rvfplot (画残差与拟合值的散点图)
在这里插入图片描述
观察发现,拟合值越大,残差分布越散,越不集中,存在异方差现象
rvpplot x (画残差与自变量x的散点图)
在这里插入图片描述

2. BP检验

H H H0:不存在异方差
Stata命令(在回归结束后使用):

estat hettest ,rhs iid

在这里插入图片描述

3.怀特检验

H H H0:不存在异方差
代码:

Stata命令(在回归结束后使用):
estat imtest,white

在这里插入图片描述

【4】 解决异方差

(1)使用OLS + 稳健的标准误
如果发现存在异方差,一 种处理方法是,仍然进行OLS 回归,但使用稳健标准误。这是最简单,也是目前通用的方法。只要样本容量较大,即使在异方差的情况下,若使用稳健标准误,则所 有参数估计、假设检验均可照常进行。换言之,只要使用了稳健标准误,就可以与异方差“和平共处”了。

regress y x1 x2 … xk,robust

在这里插入图片描述
除去异方差后发现多个都满足显著性
(2)广义最小二乘法GLS
原理:方差较大的数据包含的信息较少,我们可以给予信息量大的数据(即方差较小的数据更大的权重)
缺点:我们不知道扰动项真实的协方差矩阵,因此我们只能用样本数据来估计,这样得到的结果不稳健,存在偶然性。

Stock and Watson (2011)推荐,在大多数情况下应该使用“OLS + 稳健标准误”。

【5】多重共线性

在这里插入图片描述
##【6】检验多重共线性
在这里插入图片描述
代码:

estat vif

在这里插入图片描述

【7】解决多重共线性

如果发现存在多重共线性,可以采取以下处理方法。
(1)如果不关心具体的回归系数,而只关心整个方程预测被解释变量的能力,则通常可以 不必理会多重共线性(假设你的整个方程是显著的)。这是因为,多重共线性的主要后果是使得对单个变量的贡献估计不准,但所有变量的整体效应仍可以较准确地估计。
(2)如果关心具体的回归系数,但多重共线性并不影响所关心变量的显著性,那么也可以不必理会。即使在有方差膨胀的情况下,这些系数依然显著;如果没有多重共线性,则只会更加显著。
(3) 如果多重共线性影响到所关心变量的显著性,则需要增大样本容量,剔除导致严重共线性的变量(不要轻易删除哦,因为可能会有内生性的影响),或对模型设定进行修改

【8】逐步回归分析

(1)概念及代码

向前逐步回归Forward selection:将自变量逐个引入模型,每引入一个自变量后都要进行检验,显著时才加入回归模型。
(缺点:随着以后其他自变量的引入,原来显著的自变量也可能又变为不显著了,但是,并没有将其及时从回归方程中剔除掉。)【不常用】

向前逐步回归Forward selection:
stepwise regress y x1 x2 … xk, pe(#1)
pe(#1) specifies the significance level for addition to the model; terms with p<#1 are 
eligible for addition(显著才加入模型中)

向后逐步回归Backward elimination:与向前逐步回归相反,先将所有变量均放入模型,之后尝试将其中一个自变量从模型中剔除,看整个模型解释因变量的变异是否有显著变化,之后将最没有解释力的那个自变量剔除;此过程不断迭代,直到没有自变量符合剔除的条件。(缺点:一开始把全部变量都引入回归方程,这样计算量比较大。若对一些不重要的变量,一开始就不引入,这样就可以减少一些计算。当然这个缺点随着现在计算机的能力的提升,已经变得不算问题了)【常用】

向后逐步回归Backward elimination:
stepwise regress y x1 x2 … xk, pr(#2)
pr(#2)  specifies the significance level for removal from the model; terms with p>= #2 
are eligible for removal(不显著就剔除出模型)

如果你觉得筛选后的变量仍很多,你可以减小#1或者#2
如果你觉得筛选后的变量太少了,你可以增加#1或者#2

注: (1)x1 x2 … xk之间不能有完全多重共线性(和regress不同哦) (2)可以在后面再加参数b和r,即标准化回归系数或稳健标准误

(2)完全多重共线性的错误

在这里插入图片描述

(3) 逐步回归的说明

(1)向前逐步回归和向后逐步回归的结果可能不同。
(2)不要轻易使用逐步回归分析,因为剔除了自变量后很有可能会产生新的问
题,例如内生性问题。
(3)有没有更加优秀的筛选方法?有的,那就是每种情况都尝试一次,最终一
共有2k-1种可能。如果自变量很多,那么计算相当费时.

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值