残差检验_Python机器学习模型-线性回归模型相关检验-CSDN博客

本文链接：https://blog.csdn.net/weixin_30533933/article/details/112650359

本文介绍了Python机器学习中的线性回归模型相关检验，包括F检验、t检验来验证模型和偏回归系数的显著性，通过正态性、多重共线性、线性相关性、异常值、独立性和方差齐性检验来诊断模型。特别是，使用Durbin-Watson统计量检查残差独立性，通过BP检验判断方差齐性。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

假设检验：

模型显著性检验——F检验（利用statsmodels中建立模型的summary/summary2方法）

偏回归系数显著性检验——t检验（利用statsmodels中建立模型的summary/summary2方法）

诊断：

正态性检验：

方法	实现
PP图/QQ图	statsmodels.ProbPlot.ppplot/statsmodels.ProbPlot.qqplot
Shapiro检验/K-S检验	Scipy.stats.shapiro/scipy.stats.kstest

多重共线性检验：

关于多重共线性的检验可以使用方差膨胀因子VIF来鉴定，如果VIF大于10，则说明变量间存在多重共线性；如果VIF大于100，则表名变量间存在严重的多重共线性。（Statsmodels.stats.outliers_influence.variance_inflation_factor）

线性相关性检验：

直接通过DataFrame的corrwith方法计算皮尔森相关系数。

异常值检验：

帽子矩阵	其中H为帽子矩阵，若H中主对角线元素满足，则称第i个样本点为异常点。	Get_influence().hat_matrix_diag
DFFITS准则	构造统计量（ε为预测误差，σ为误差项的标准差）若满足则为异常点。	Get_influence().dffits(返回统计量的值与阈值)
学生化残差	构造统计量，并满足以下条件则为异常点。	Get_influence().resid_studentized_external
Cook距离	其中，ri为学生化残差。 Cook统计量越大的点，其成为异常点的可能性越大。	Get_influence().cooks_distance(返回统计量的值与基于F分布的P值)

独立性检验：

对因变量y的独立性检验，因为在线性回归模型的等式左右只有y和残差项ε属于随机变量，如果再加上正态分布，就构成了残差项独立同分布于正态分布的假设。关于残差的独立性检验通常使用Durbin-Watson统计量值来测试，如果DW值在2左右，则表明残差项之间是不相关的；如果与2偏离的较远，则说明不满足残差的独立性假设。（summary方法中的DW值）

方差齐性检验：

1.图形法：

方差齐性是指残差项的方差不随自变量的变动而变动，所以只需要绘制残差与自变量之间的散点图，就可以发现两者之间是否存在某种趋势。

2.BP检验：

原假设是残差的方差为一个常数，通过构造拉格朗日乘子LM统计量，实现方差齐性的检验。该检验可以借助于statsmodels模块中的het_breushpagan函数完成。（statsmodels.stats.diagnostic.het_breushpagan(残差，外生变量)返回第一个值为LM统计量；第二个值是统计量对应的概率p值；第三个值为F统计量，用于检验残差平方项与自变量之间是否独立，如果独立则表明残差方差齐性；第四个值则为F统计量的概率p值，同样大于0.05，则进一步表示残差项满足方差齐性的假设。）