残差和杠杆关系的探索 - 基于R语言的实证研究
引言:
残差与杠杆关系是统计学中一个重要的概念,用于分析线性回归模型中的异常观测值对模型拟合效果的影响程度。在本文中,我们将使用R语言来探索残差与杠杆的关系,并通过相应的源代码进行实证研究。
一、背景知识
1.1 线性回归模型
线性回归模型是统计学中常用的一种建模方法,用于描述自变量与因变量之间的线性关系。其数学表达式为:
Y = β0 + β1X1 + β2X2 + … + βpXp + ε
其中,Y代表因变量,X1至Xp代表自变量,β0至βp代表回归系数,ε代表误差项。
1.2 残差(Residuals)
在线性回归模型中,残差指的是实际观测值与模型预测值之间的差异,即残差=观测值-模型预测值。
1.3 杠杆值(Leverage)
杠杆值是对于线性回归模型中每个观测点对模型参数估计所起的影响程度的度量。在数学上,杠杆值可以用帽子矩阵(Hat Matrix)来计算。
二、R语言实现
2.1 数据准备
首先,我们需要准备一组数据集,以便进行实证研究。假设我们有一个数据框df,其中包含自变量X和因变量Y,并且已经通过lm()函数建立了线性回归模型。
# 创建数据框
df <- data.frame(X = c(1, 2, 3, 4, 5),
Y = c(2, 4, 6, 8, 10))
# 建立线性回归模型
model <- lm(Y ~ X, data = df)
2.2