python 方差膨胀因子_Python数据科学:线性回归诊断

本文介绍了线性回归诊断的重要环节,包括残差分析和多重共线性诊断。通过残差图检查模型的异方差性,并通过方差膨胀因子(VIF)识别和处理多重共线性问题。文中使用实际例子展示了如何通过取对数、移除强影响点以及调整自变量来改善模型质量。
摘要由CSDN通过智能技术生成

69473ec89d9446bcbdbbb17f7a3e3ac0.gif

接上篇的线性回归文章,传送门如下。

多元线性回归的前提条件:

因变量不能和扰动项有线性关系

自变量与因变量之间要有线性关系

自变量之间不能有太强的线性关系

扰动项或残差独立且应服从均值为0、方差一定的正态分布

/ 01 / 残差分析

残差分析是线性回归诊断的重要环节。

残差应服从的前提条件有三个:

残差方差齐性

残差独立同分布

残差不能和自变量相关(不能检验)

通过查看残差图来查看残差情况。

残差图可分为四类:

残差正常分布:残差随机分布,上下界基本对称,无明显自相关,方差基本齐性

残差曲线分布:残差与预测值呈曲线关系,说明自变量与因变量不是线性关系

残差方差不齐:残差上下界基本对称,但随着预测值的增大,其上下幅度也会不断增大

残差周期变化:残差随预测值增大而呈周期性变化,说明自变量与因变量可能是周期性变化

下面以之前线性回归文章里的模型为例。

# 简单线性回归模型,平均支出和收入

ana1 = lm_s

# 训练数据集的预测值

exp['Pred'] = ana1.predict(exp)

# 训练数据集的残差

exp['resid'] = ana1.resid

# 绘制收入与残差的散点图

exp.plot('Income', 'resid', kind='scatter')

plt.show()

得到模型的残差情况,随着预测值增大,残差基本保持上下对称。

但残差正负的幅度有逐渐变大的趋势,即模型有方差不齐的问题。

715aa93c04cbd6df8482feb1f145d63e.png

异方差的处理方法,可以把数据取对数,所以这里把平均支出数据做对数处理。

# 使用

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值