回归模型中的残差变异分析 - 基于Swirl课程Regression_Models项目

花化贵Ferdinand

于 2025-06-09 09:06:19 发布

阅读量345

点赞数 5

本文链接：https://blog.csdn.net/gitblog_00614/article/details/148524996

版权

在回归分析中，残差（residuals）是指观测值与模型预测值之间的差异。它们是评估模型拟合优度的重要指标。残差可以被理解为"移除了预测变量(X)线性关联后的结果(Y)"。

统计建模中，我们需要区分两种变异：

对于一个线性模型，随机误差方差的最大似然估计就是残差的平均平方。但需要注意自由度的问题：

计算公式为：σ² = 1/(n-2) * Σ(残差²)

让我们通过Galton身高数据集来实践这些概念：

fit <- lm(child ~ parent, galton)

sqrt(sum(fit$residuals^2)/(n-2))

summary(fit)$sigma

sqrt(deviance(fit)/(n-2))

回归分析中一个重要的关系式是：

总变异 = 残差变异 + 回归变异

用数学表达式表示： Σ(Yi - Ȳ)² = Σ(Yi - Ŷi)² + Σ(Ŷi - Ȳ)²

其中：

R²表示模型解释的总变异的百分比，计算公式为：

R² = 1 - (残差变异/总变异) = 回归变异/总变异

计算步骤示例：

mu <- mean(galton$child)  # 计算均值
sTot <- sum((galton$child-mu)^2)  # 总变异
sRes <- deviance(fit)  # 残差变异
1 - sRes/sTot  # R²值

有趣的是，R²也等于预测变量和响应变量相关系数的平方：

cor(galton$parent, galton$child)^2

通过本课程，我们深入理解了残差变异在回归分析中的重要性，学会了如何计算和解释R²统计量，掌握了变异分解的方法。这些知识对于评估回归模型的质量和解释能力至关重要。

记住，一个好的统计模型不仅要看R²值，还需要综合考虑残差分析、模型假设检验等多个方面，才能对模型效果做出全面评估。

创作声明：本文部分内容由AI辅助生成（AIGC），仅供参考