清风数学建模第七讲多元线性回归分析

m0_65263850

已于 2023-12-08 15:31:46 修改

阅读量872

点赞数 25

文章标签：数学建模算法

于 2023-12-08 15:25:59 首次发布

本文链接：https://blog.csdn.net/m0_65263850/article/details/134879846

版权

本文详细介绍了回归分析的关键任务，包括变量筛选、相关性判断和权重估计。讨论了不同类型数据的处理方法，如横截面、时间序列和面板数据，并着重讲解了数据收集途径。文章还涉及了stata中的回归实例，包括模型评估、异方差处理和多重共线性的诊断与解决，以及逐步回归法的使用和注意事项。

摘要由CSDN通过智能技术生成

回归分析的使命
1. 第一、识别重要变量（把重要的变量留下，不重要的舍弃）
2. 第二、判断相关性的方向（看是正相关还是负相关）
3. 第三、要估计权重（回归系数）
回归分析的分类
数据
1. 数据的分类
  1. 横截面数据：在某一时点收集的不同对象的数据。（同一时间，不同对象）
  2. 时间序列数据：对同一对象在不同时间连续观察所取得的数据。（同一对象，不同时间）
  3. 面板数据：横截面数据与时间序列数据综合起来的一种数据资源。（不同对象，不同时间）
2. 不同数据类型的处理方法
3. 数据的收集
  1. 在知乎上搜索“数据查找”来获取最新的数据网站，上面的数据多半都是宏观数据，微观数据市面上很少大家可以在人大经济论坛搜索经管之家(原经济论坛)-国内活跃的经济、管理、金融、统计在线教育和咨询网站
  2. 另外也可以自己学习爬虫Python等软件爬取（需要编程基础，实际学习起来不困难）网易云课堂：零基础21天搞定Python分布爬虫
  3. 傻瓜式软件爬取（八爪鱼）
一元线性回归

回归实例（stata软件）

1. Model=SSR；Residual=SSE；Total=SST；df=自由度；MS（平均）=SS/df（一般不考虑）；Total（df)=n-1;Model(df)=k(变量个数）；Residual（df）=n-k-1（用于构造调整后拟合优度R2）
2. Number of obs=n;联合显著性检验𝛽1=𝛽2=…=𝛽𝑘=0：F(2,843)=15.09是检验值，2、843是两个自由度，Prob>F是对应的P值，当P<0.5的时候拒绝原假设（𝛽1=𝛽2=…=𝛽𝑘=0）说明回归方程合理可用，当P>0.5时不能拒绝原假设，回归没有意义，系数都为0了；R-squared=R2;Adj R-squared=调整后的R2
3. 回归系数Coef：cons的Coef值是常数项𝛽0，团购价元、商品毛重的Coef值是𝛽1、𝛽2
4. 标准误差Std.Err.
5. t统计量=Coef/
6. P值假设性检验分别检验团购价元、商品毛重、常数项原假设是这些值为0
7. 95% Conf,Interval 置信区间

扰动项要满足的条件

1. 用图形来检验异方差不够严谨，后面会讲到用假设检验的方法来检验异方差
异方差的假设检验
异方差的处理方法

1）使用OLS + 稳健的标准误

如果发现存在异方差，一种处理方法是，仍然进行OLS 回归，但使用稳健标准误。这是最简单，也是目前通用的方法。只要样本容量较大，即使在异方差的情况下，若使用稳健标准误，则所有参数估计、假设检验均可照常进行。换言之，只要使用了稳健标准误，就可以与异方差“和平共处”了。（Stock and Watson (2011)推荐，在大多数情况下应该使用“OLS + 稳健标准误”。）

多重共线性
1. stata会自动检测数据的完全多重共线性
2. 但是当模型近似（非严格的）多重共线性时，stata是检测不出的，这个多重共线性会导致症状R2较大、F检验也很显著，但单个系数的t检验不显著或系数估计值不合理甚至符号与理论预期相反还有一个症状增减变量会导致估计系数估计值值变化很大
3. 检验多重共线性
  2. 把大于10的变量删除掉
4. 多重共线性处理方法：如果发现存在多重共线性，可以采取以下处理方法。
  1. 如果不关心具体的回归系数，而只关心整个方程预测被解释变量的能力，则通常可以不必理会多重共线性（假设你的整个方程是显著的）。这是因为，多重共线性的主要后果是使得对单个变量的贡献估计不准，但所有变量的整体效应仍可以较准确地估计。
  2. 如果关心具体的回归系数，但多重共线性并不影响所关心变量的显著性，那么也可以不必理会。即使在有方差膨胀的情况下，这些系数依然显著;如果没有多重共线性，则只会更加显著。
  3. 如果多重共线性影响到所关心变量的显著性，则需要增大样本容量，剔除导致严重共线性的变量（不要轻易删除哦，因为可能会有内生性的影响），或对模型设定进行修改。一般都是删除变量，数模论文没有那么严谨，可以在模型缺点上指出可能存在内生性的问题
5. 逐步回归分析（可以用来解决多重共线性的问题）
  1. 向前逐步回归Forward selection：将自变量逐个引入模型，每引入一个自变量后都要进行检验，显著时才加入回归模型。(缺点：随着以后其他自变量的引入，原来显著的自变量也可能又变为不显著了，但是，并没有将其及时从回归方程中剔除掉。)
  2. 向后逐步回归Backward elimination：与向前逐步回归相反，先将所有变量均放入模型，之后尝试将其中一个自变量从模型中剔除，看整个模型解释因变量的变异是否有显著变化，之后将最没有解释力的那个自变量剔除；此过程不断迭代，直到没有自变量符合剔除的条件。（缺点：一开始把全部变量都引入回归方程，这样计算量比较大。若对一些不重要的变量，一开始就不引入，这样就可以减少一些计算。当然这个缺点随着现在计算机的能力的提升，已经变得不算问题了）
  3. Stata实现逐步回归法
    1. 向前逐步回归Forward selection：stepwise regress y x1 x2 … xk, pe(#1)（显著才加入模型中）
    2. 向后逐步回归Backward elimination：stepwise regress y x1 x2 … xk, pr(#2)（不显著就剔除出模型）
    3. 如果你觉得筛选后的变量仍很多，你可以减小#1或者#2；如果你觉得筛选后的变量太少了，你可以增加#1或者#2
    4. x1 x2 … xk之间不能有完全多重共线性(和regress不同哦)
    5. 可以在后面再加参数b和r，即标准化回归系数或稳健标准误
  4. 逐步回归的说明
    1. 向前逐步回归和向后逐步回归的结果可能不同
    2. 不要轻易使用逐步回归分析，因为剔除了自变量后很有可能会产生新的问题，例如内生性问题。一般都是可以使用的，数模论文没有那么严谨，可以在模型缺点上指出可能存在的问题