回归诊断
线性回归基本假设
- 对模型设定的假定,回归模型是正确的
- 误差项的假定
误差项 ε \varepsilon ε服从均值为0,方差为 σ 2 \sigma^2 σ2的正态分布
误差项之间不存在序列相关(差分法) - 解释变量的假定
解释变量是确定性变量,解释变量与随机误差误差项 ε \varepsilon ε之间不存在相关性(工具变量法)
解释变量之间不存在多重共线性
模型假定错误
诊断
- 散点图
处理
- 非线性回归(多项式回归、指数型)
多重共线性
出现的问题
- OLS无解, ( X T X ) − 1 (X^TX)^{-1} (XTX)−1不存在
- 参数估计的MSE变大, v a r ( β ^ ∣ X ) = σ ^ 2 ( X T X ) − 1 var(\hat{\beta}|X)=\hat{\sigma}^2(X^TX)^{-1} var(β^∣X)=σ^2(XTX)−1
- 系数估计符号与常识不符合,定性分析与定量分析不一致
- 重要变量不显著
原假设: β i = 0 \beta_i=0 βi=0
t = β i ^ s e β i ^ = β i ^ σ ^ 2 ( X T X ) − 1 t=\frac{\hat{\beta_i}}{se_{\hat{\beta_i}}}=\frac{\hat{\beta_i}}{\sqrt{\hat{\sigma}^2(X^TX)^{-1}}} t=seβi^βi^=σ^2(XTX)−1βi^
分母变大,t值减小,倾向于不拒绝原假设。 - 参数含义不明确, x 1 , x 2 , x 3 x_1,x_2,x_3 x1,x2,x3多重共线性, x 2 , x 3 x_2,x_3 x2,x3固定, x 1 x_1 x1不变
- OLS估计对数据的微小变化很敏感
诊断
- 相关系数矩阵
- 直观诊断(基于出现的问题),R方很大,但是多个t较小,结果导向
- 经验诊断,基于 X T X X^TX XTX的特征值的差距
- 方差扩大因子( V I F = 1 1 − R j 2 VIF=\frac{1}{1-R_j^2} VIF=1−Rj21):新加变量 X j X_j Xj对方差的影响,考虑解释变量对其他变量的回归的复相关系数 R j 2 R_j^2 Rj2
处理:
- 增加样本量
- 岭回归、偏最小二乘法
岭回归
- β = ( X T X + λ I ) − 1 X T Y \beta=(X^TX+{\lambda}I)^{-1}X^TY β=(XTX+λI)−1XTY,增加 λ 限 制 , β \lambda限制,\beta λ限制,β会收缩,也就是下面的式子。
- min R S S = ∣ ∣ Y − X β ∣ ∣ + λ ∑ i = 1 p β i 2 RSS=||Y-X\beta||+\lambda\sum_{i=1}^p \beta_i^2 RSS=∣∣Y−Xβ∣∣+λ∑i=1pβi2
异方差
原因:
出现的问题:
- 普通最小二乘估计值虽然是无偏的,但不再是最小方差线性无偏估计,不再有效。
- 参数的显著性检验失效,异方差性会高估回归系数的t值检验,可能造成本来不显著的某些回归系数变得显著。
- 模型应用效果极不理想,模型的区间预测包含参数方差的估计量,异方差会增加参数的方差,导致估计区间和预测区间扩大,精度下降,因而失效。
诊断
4. 画图分析法(y与x,e与x)
5. 等级相关系数法:
ρ
=
∑
i
=
1
n
(
r
i
−
r
ˉ
)
(
s
i
−
s
ˉ
)
∑
i
=
1
n
(
r
i
−
r
ˉ
)
∑
i
=
1
n
(
s
i
−
s
ˉ
)
\rho=\frac{\sum_{i=1}^{n}(r_i-\bar{r})(s_i-\bar{s})}{\sqrt{\sum_{i=1}^{n}(r_i-\bar{r})\sum_{i=1}^{n}(s_i-\bar{s})}}
ρ=∑i=1n(ri−rˉ)∑i=1n(si−sˉ)∑i=1n(ri−rˉ)(si−sˉ)
原假设(
H
0
H_0
H0):x与e不相关,即等级相关系数=0
检验统计量
t
=
n
−
2
ρ
r
s
1
−
ρ
r
s
2
∼
t
(
n
−
2
)
t=\frac{\sqrt{n-2}\rho_{rs}}{\sqrt{1-\rho_{rs}^2}}{\sim}t(n-2)
t=1−ρrs2n−2ρrs∼t(n−2)
处理
- GLS(加权线性回归)
w 1 / 2 Y = w 1 / 2 X β + w 1 / 2 e w^{1/2}Y=w^{1/2}X\beta+w^{1/2}e w1/2Y=w1/2Xβ+w1/2e
其中, w 1 / 2 w 1 / 2 = Σ w^{1/2}w^{1/2}=\Sigma w1/2w1/2=Σ
正态性
QQ图、频数分布图( χ 2 \chi^2 χ2检验)