数学建模(NO.12回归模型补充)

最新推荐文章于 2023-09-17 10:23:56 发布

张张同学！

最新推荐文章于 2023-09-17 10:23:56 发布

阅读量1.9k

点赞数 3

分类专栏：数学建模文章标签： python 数据分析人工智能

本文链接：https://blog.csdn.net/qq_46126118/article/details/112611460

版权

数学建模专栏收录该内容

52 篇文章 169 订阅

订阅专栏

本文详细介绍了回归分析中扰动项的条件，强调了异方差性及其对估计结果的影响，包括图形检验、BP检验和怀特检验等诊断方法。为解决异方差，提出了使用OLS+稳健标准误和GLS方法。同时，讨论了多重共线性问题，给出了VIF检验和如何处理多重共线性的建议。最后，简述了逐步回归分析的两种形式及其适用场景，并提醒注意逐步回归可能带来的问题。

摘要由CSDN通过智能技术生成

回归模型补充

【1】扰动项满足的条件

在这里插入图片描述
在上一节的回归分析时我们都是默认了扰动项是球形扰动项

球型扰动项：满足“同方差”和“无自相关”两个条件。

同方差性
无自相关

横截面数据容易出现异方差的问题；
时间序列数据容易出现自相关的问题。

【2】异方差

如果干扰项存在异方差会出现

OLS估计出来的回归系数是无偏的，一致的。
假设检验无法使用（构造的统计量无效）
OLS估计量不是最优线性无偏估计量

如何解决

OLS+稳健的标准误
GLS（广义最小二乘法）

【3】检验异方差

1. 图形检验（大致）

rvfplot (画残差与拟合值的散点图）
在这里插入图片描述
观察发现，拟合值越大，残差分布越散，越不集中，存在异方差现象
rvpplot x (画残差与自变量x的散点图)

2. BP检验

$H$ ₀：不存在异方差
Stata命令（在回归结束后使用）：

estat hettest ,rhs iid

在这里插入图片描述

3.怀特检验

$H$ ₀：不存在异方差
代码：

Stata命令（在回归结束后使用）：
estat imtest,white

在这里插入图片描述

【4】解决异方差

（1）使用OLS + 稳健的标准误
如果发现存在异方差，一种处理方法是，仍然进行OLS 回归，但使用稳健标准误。这是最简单，也是目前通用的方法。只要样本容量较大，即使在异方差的情况下，若使用稳健标准误，则所有参数估计、假设检验均可照常进行。换言之，只要使用了稳健标准误，就可以与异方差“和平共处”了。

regress y x1 x2 … xk,robust

在这里插入图片描述
除去异方差后发现多个都满足显著性
（2）广义最小二乘法GLS
原理：方差较大的数据包含的信息较少，我们可以给予信息量大的数据（即方差较小的数据更大的权重）
缺点：我们不知道扰动项真实的协方差矩阵，因此我们只能用样本数据来估计，这样得到的结果不稳健，存在偶然性。

Stock and Watson (2011)推荐，在大多数情况下应该使用“OLS + 稳健标准误”。

【5】多重共线性

在这里插入图片描述
##【6】检验多重共线性

代码：

estat vif

在这里插入图片描述

【7】解决多重共线性

如果发现存在多重共线性，可以采取以下处理方法。
(1)如果不关心具体的回归系数，而只关心整个方程预测被解释变量的能力，则通常可以不必理会多重共线性（假设你的整个方程是显著的）。这是因为，多重共线性的主要后果是使得对单个变量的贡献估计不准，但所有变量的整体效应仍可以较准确地估计。
(2)如果关心具体的回归系数，但多重共线性并不影响所关心变量的显著性，那么也可以不必理会。即使在有方差膨胀的情况下，这些系数依然显著;如果没有多重共线性，则只会更加显著。
(3) 如果多重共线性影响到所关心变量的显著性，则需要增大样本容量，剔除导致严重共线性的变量（不要轻易删除哦，因为可能会有内生性的影响），或对模型设定进行修改

【8】逐步回归分析

(1)概念及代码

向前逐步回归Forward selection：将自变量逐个引入模型，每引入一个自变量后都要进行检验，显著时才加入回归模型。
(缺点：随着以后其他自变量的引入，原来显著的自变量也可能又变为不显著了，但是，并没有将其及时从回归方程中剔除掉。)【不常用】

向前逐步回归Forward selection：
stepwise regress y x1 x2 … xk, pe(#1)
pe(#1) specifies the significance level for addition to the model; terms with p<#1 are 
eligible for addition（显著才加入模型中）

向后逐步回归Backward elimination：与向前逐步回归相反，先将所有变量均放入模型，之后尝试将其中一个自变量从模型中剔除，看整个模型解释因变量的变异是否有显著变化，之后将最没有解释力的那个自变量剔除；此过程不断迭代，直到没有自变量符合剔除的条件。（缺点：一开始把全部变量都引入回归方程，这样计算量比较大。若对一些不重要的变量，一开始就不引入，这样就可以减少一些计算。当然这个缺点随着现在计算机的能力的提升，已经变得不算问题了）【常用】

向后逐步回归Backward elimination：
stepwise regress y x1 x2 … xk, pr(#2)
pr(#2)  specifies the significance level for removal from the model; terms with p>= #2 
are eligible for removal（不显著就剔除出模型）