多元线性回归的缺陷_轻松阅 | 多元线性回归的“参差不齐

本文探讨了多元线性回归中残差的重要性,通过残差图来检查模型的合理性。残差是实际值与预测值的差,反映模型的不足。异方差性意味着残差的波动性随预测值变化,影响模型的估计效率。如果残差图显示系统性的模式,可能需要引入非线性项或重新构建模型。
摘要由CSDN通过智能技术生成

残差“齐不齐”

关于残差

      在多元线性回归中,我们想根据连续数据来进行预测。例如,我们有包含不同年份的资本投入,劳动力投入和技术水平的列表,并想预测当年的产出水平。或者,可能有一些人员流动频率的数据,并想预测某地的环境水平。当我们构建了一个回归模型时,首当其冲的一个问题是,我们如何评估模型的好坏?

      这种时候第一反应,可能就是画一个残差图。在聊到残差图之前,我们先来讨论为什么重视残差。

什么是我们经常挂在嘴边的残差呢?在数理统计中,残差是指实际观察值与估计值(拟合值)之间的差值。残差蕴含了有关模型基本假设的重要信息。进一步理解,残差本质上是当一个给定的模型不完全符合给定的观察值时留下的间隙。如果回归模型正确的话,我们可以将残差看作误差的观测值。

        打一个比方,如果模型挂了急诊科,大夫要测模型的残差水平,看看是否在正常范围内。如果偏离某项检测指标的合理水平,这个模型可能就得了病。

349ffa4435927b5340bc496586289901.png 66c9690547f403ea62b091c48362c694.gif

残差图的作用

       普通最小二乘法我们都很熟悉,回归分析后的结果一定要用残差图来检查,以验证你的模型。那么问题来了,为什么一定是残差图呢?残差图又该怎么看呢?

残差图的“用武之地”

我们先回到回归模型的视角,对于一个有效的回归模型来说,可以细分出两个基本部分:响应=确定性+随机性。解释一下,由关于预测自变量的函数组成的预测模型中应该包含回归模型中所有可解释、可预测的信息;而在误差中不应该含有任何可解释、可预测的信息。既然模型中的确定性部分可以很好的解释或预测固有的随机响应,那么一旦在随机误差这一部分中发现有可解释或预测的信息,那就说明此时预测模型缺少了些可预测信息。回归残差作为真实误差的估计,这时候就可以派上用武之地了。

       我们可以用残差图来估计观察或预测到的误差与随机误差是否一致。用一个抛硬币的例子加强理解:硬币有正反之分,我们早就学过如果硬币扔上几万次,那么扔出正反面的几率接近于1:1。也就是说,当你扔了很多次硬币,并且注意扔出的正反面结果的是,你会注意正面出现的频率是否遵循一个随机模式,其实也就是直观的产生一个随机分布的残差图,如果有人改造了硬币,让正面更容易出现,你心中的残差图看上去就似乎有了些规律,这是你会敏锐的发觉好像这个游戏里存在着一些问题。

fc63518bfe0767071b55c3a40beaea2a.png

       同样的,对于回归模型而言,需要确定残差是否与随机误差相互呈现一致性,就像抛硬币子一样,残差若整体呈现“很古怪”的模式,就需要去修改回归模型了。

66c9690547f403ea62b091c48362c694.gif

残差图的画法

      不同于简单的扔硬币,在做一个回归模型时,我们自然而然会要想要心里有点数,也就是说我们要知道,我们期待的那个“正常的”OLS回归模型的随机误差到底是什么样子。如果一个线性回归模型没有重大缺陷,残差ε和解释变量X应该无关甚至独立。在前边的比喻中我们知道残差ε的均值,不能还对X有系统性地依赖。否则,残差ε里面应该还有可以被X解释的成分,这代表着模型改进的重大方向。因此,我们自然想到就是画一下自变量X和残差ε的散点图,看看是不是真的符合我们的预期。

43e09f91acdf46ed916b2ab465122c60.png

       但是问题来了,变量有好多个,到底画哪一个?偷懒的想法是,能不能把所有的X变量,通过加权组合,形成一个单一指标,然后画这个指标同残差ε的散点图?想法虽好,X的权重如何确定呢?这个时候就有了一个新点子,不如带着回归系数一起玩吧!如果大家同意,那么拟合值就可以承载这个使命。因此,这就产生了我们的残差ε图。横轴是拟合值,纵轴是残差ε的估计。

重点来啦!!!

对于残差ε图的分析

      现在我们终于能回答前面那个例子了,我们想要的那个OLS估计的误差分布,到底应该长什么样子呢?首先,残差不应该成片的很高或很低,而是在拟合值的范围内,以0为中心。换句话说,模型的拟合应该平均散布在被拟合值点附近。而且,在OLS理论中,假设随机误差产生的是正态分布的残差。因此,残差应该是以对称的模式,并且在整个拟合范围内具有恒定均匀的扩散。

比如这样:

166b9b637a014a19f4925af0f3f444c0.png

那要是残差ε图长得不规矩,模型存在什么问题呢?我们又怎么去解决呢?我们不妨从模型小感冒开始说,比如下面这个“残差不齐”的问题:

7e8b83a7eb2ea8ba2c27a83204bbb13d.png

       当残差ε的波动性随着拟合值的变化,出现系统性的变化规律时,就存在“异方差”,也就是随机误差项的方差不完全相等,在经济问题中常见递增型异方差。异方差影响的是估计效率,也就是说在有限样本的情况下,其相应的OLS的精度并非最优,但这个异方差存在影响并不严重。

       那什么样的残差图代表模型病入膏肓呢?如果我们的残差ε图长得如下图所示,很可能之前的模型就要打碎重建了。

568b4b7b52ca81c457f24ba23990c363.png

      这个残差图传递了什么信息呢?它说明残差的“均值”(画个重点,不是方差),随着拟合值的变化呈现出了系统性地变化规律。这就是个大问题了。就好比,刚才只是某个时刻公司的资金流出现了变动,现在是长期里公司的现金流都存在着问题了。此时,我们基本宣告模型破产,改进方向是引入必要的“外资”,例如二次项。或者把公司“拆分重组”,干脆把数据根据某项指标,拆分成几项,分别拟合。这种情况下,无论采用什么改进手段,我们都确信应引入适当的非线性项,以提高拟合优度和预测精度。

d591fad815f3d750b0bef5c764155029.png 66c9690547f403ea62b091c48362c694.gif

总结

       综上,在检验多元线性模型是否合理时,不妨打开软件绘制出一张残差全家福,如果照片里“残差不齐”,那就想办法换换站位和结构以改善模型,一家的残差,要整整齐齐。

66c9690547f403ea62b091c48362c694.gif

文章作者:宋雪莹

图文排版:王佳润

更多内容咨询

请关注:NKDACS

dc85a07b6773cbba4fd8696b5334940a.png
  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值