回归模型中的残差变异分析 - 基于Swirl课程Regression_Models项目
残差变异的基本概念
在回归分析中,残差(residuals)是指观测值与模型预测值之间的差异。它们是评估模型拟合优度的重要指标。残差可以被理解为"移除了预测变量(X)线性关联后的结果(Y)"。
统计建模中,我们需要区分两种变异:
- 系统变异(Systematic Variation):由回归模型解释的变异部分
- 残差变异(Residual Variation):移除预测变量影响后剩余的变异部分
残差与方差估计
对于一个线性模型,随机误差方差的最大似然估计就是残差的平均平方。但需要注意自由度的问题:
- 单预测变量的线性模型需要估计两个参数(斜率和截距)
- 因此计算"平均"平方残差时,分母应使用n-2而非n
- 使用n作为分母会产生有偏估计
计算公式为:σ² = 1/(n-2) * Σ(残差²)
实践应用:Galton身高数据
让我们通过Galton身高数据集来实践这些概念:
- 首先建立回归模型:
fit <- lm(child ~ parent, galton)
- 计算残差标准差估计:
sqrt(sum(fit$residuals^2)/(n-2))
- 验证结果:
summary(fit)$sigma
- 另一种计算方法:
sqrt(deviance(fit)/(n-2))
变异分解
回归分析中一个重要的关系式是:
总变异 = 残差变异 + 回归变异
用数学表达式表示: Σ(Yi - Ȳ)² = Σ(Yi - Ŷi)² + Σ(Ŷi - Ȳ)²
其中:
- 总变异:Σ(Yi - Ȳ)²(观测值与均值的差异)
- 残差变异:Σ(Yi - Ŷi)²(观测值与预测值的差异)
- 回归变异:Σ(Ŷi - Ȳ)²(预测值与均值的差异)
R²统计量
R²表示模型解释的总变异的百分比,计算公式为:
R² = 1 - (残差变异/总变异) = 回归变异/总变异
计算步骤示例:
mu <- mean(galton$child) # 计算均值
sTot <- sum((galton$child-mu)^2) # 总变异
sRes <- deviance(fit) # 残差变异
1 - sRes/sTot # R²值
有趣的是,R²也等于预测变量和响应变量相关系数的平方:
cor(galton$parent, galton$child)^2
R²的重要特性
- 表示模型解释的变异百分比
- 取值范围在0到1之间
- 等于样本相关系数的平方
- 但R²并不能说明全部问题,需要结合其他指标评估模型
总结
通过本课程,我们深入理解了残差变异在回归分析中的重要性,学会了如何计算和解释R²统计量,掌握了变异分解的方法。这些知识对于评估回归模型的质量和解释能力至关重要。
记住,一个好的统计模型不仅要看R²值,还需要综合考虑残差分析、模型假设检验等多个方面,才能对模型效果做出全面评估。
创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考