接上篇的线性回归文章,传送门如下。
多元线性回归的前提条件:
因变量不能和扰动项有线性关系
自变量与因变量之间要有线性关系
自变量之间不能有太强的线性关系
扰动项或残差独立且应服从均值为0、方差一定的正态分布
/ 01 / 残差分析
残差分析是线性回归诊断的重要环节。
残差应服从的前提条件有三个:
残差方差齐性
残差独立同分布
残差不能和自变量相关(不能检验)
通过查看残差图来查看残差情况。
残差图可分为四类:
残差正常分布:残差随机分布,上下界基本对称,无明显自相关,方差基本齐性
残差曲线分布:残差与预测值呈曲线关系,说明自变量与因变量不是线性关系
残差方差不齐:残差上下界基本对称,但随着预测值的增大,其上下幅度也会不断增大
残差周期变化:残差随预测值增大而呈周期性变化,说明自变量与因变量可能是周期性变化
下面以之前线性回归文章里的模型为例。
# 简单线性回归模型,平均支出和收入
ana1 = lm_s
# 训练数据集的预测值
exp['Pred'] = ana1.predict(exp)
# 训练数据集的残差
exp['resid'] = ana1.resid
# 绘制收入与残差的散点图
exp.plot('Income', 'resid', kind='scatter')
plt.show()
得到模型的残差情况,随着预测值增大,残差基本保持上下对称。
但残差正负的幅度有逐渐变大的趋势,即模型有方差不齐的问题。
异方差的处理方法,可以把数据取对数,所以这里把平均支出数据做对数处理。
# 使用