回归诊断

最新推荐文章于 2024-08-19 01:00:00 发布

米法·

最新推荐文章于 2024-08-19 01:00:00 发布

阅读量690

点赞数

分类专栏：机器学习文章标签：机器学习

本文链接：https://blog.csdn.net/TSzero/article/details/116796345

版权

机器学习专栏收录该内容

26 篇文章 23 订阅

订阅专栏

一、简介

当我们建立线性模型后，可能也通过了F检验，但得到的模型就是合理的吗？不一定，因为有的数据可能并不是线性关系的，对于一元回归问题，我们或许可以通过画图观察自变量和因变量是否可以用线性模型刻画。但是，对于多元回归模型，试图通过画图的方式来判断线性关系是不可行的。那么，一般情况下，我们如何验证线性模型的合理性呢？这个时候就需要对所建立模型进行误差诊断，通过分析其残差来判断回归分析的基本假设是否成立。如发现果不成立，那么所有的区间估计、显著性检验都是不可靠的！

二、残差

2.1 残差的定义和性质

这里详细介绍了线性回归模型，其中，大多数的分析都是基于误差的假设： $\epsilon_i\stackrel{iid}{\sim}N(0,\sigma^2)$ 。如何考察数据基本上满足这些假设？自然从残差的角度来解决问题，这种方法叫残差分析。研究那些对统计推断（估计、检验、预测和控制）有较大影响的点，这样的点叫做影响点。剔除那些有较强影响的异常/离群(outlier)数据，这就是所谓的影响分析(influence analysis)。

残差的数学定义为: $\hat\epsilon = Y-\hat Y\tag1$
其中， $\hat Y$ 为模型预测的值。

残差的数学性质如下: 在假设 $\epsilon\sim N(0,\sigma^2I_n)$ 下，

$\hat\epsilon \sim N(0,\sigma^2(I_n-P))$
$Cov(\hat Y,\hat\epsilon) = 0$
$1^\top\hat\epsilon = 0$

其中， $P$ 的定义为 $X(X^\top X)^{-1}X^\top$ ，而且 $P$ 有以下性质： $P^\top=P^2$ ， $I_n-P = (I_n-P)^\top=(I_n-P)^2$

从其中，我们可以看到 $Var[\hat\epsilon_i] = \sigma^2(1-p_{ii})$ ，其中 $p_{ii}$ 为投影矩阵 $P$ 的元素，该方差与 $\sigma^2$ 和 $p_{ii}$ 都有关，因此直接比较 $\hat\epsilon_i$ 是不恰当的。为此，将残差标准化: $\frac{\hat\epsilon_i-E[\hat\epsilon_i]}{\sqrt{Var[\hat\epsilon_i}]}= \frac{\hat\epsilon_i}{\sigma\sqrt{1-p_{ii}}},\ i=1,\dots,n\tag 2$
其中 $\sigma$ 是未知的，可以用 $\hat\sigma$ 来代替， $\hat\sigma^2 = S_e^2/(n-p)$ ，因此可以得到学生化残差为： $t_i = \frac{\hat\epsilon_i}{\hat{\sigma}\sqrt{1-p_{ii}}}\tag3$
re:

$t_i$ 虽然是 $\hat\epsilon_i$ 的学生化，但但它的分布并不服从 $t$ 分布，它的分布比较复杂
$t_1,\dots,t_n$ 通常是不独立的
在实际应用中，可以近似认为 $t_1,\dots,t_n$ 是独立的，且服从 $N (0, 1)$ 分布
在实际应用中使用的残差图就是根据上述假定来对模型合理性进行诊断的

2.2 残差图

残差图：以残差为纵坐标，其他的量（一般为拟合值 $\hat y_i$ ，它们两个是独立的）为横坐标的散点图。

由于可以近似认为 $t_1,\dots,t_n$ 是独立的，且服从 $N (0, 1)$ 分布，因此可以认为它们是来自 $N (0, 1)$ 的 $i i d$ 样本。根据标准正态的性质，大概有 $95\%$ 的 $t_i$ 落在 $[- 2, 2]$ 内。同时，由于 $\hat Y$ 与 $\hat\epsilon$ 不相关，因此 $\hat y_i$ 与学生化残差 $t_i$ 的相关性也很小。

这样在残差图中，点 $(\hat y_i,t_i),i=1,\dots,n$ 大致应该落在宽度为 $4$ 的水平带 $|t_i|\le 2$ 的区域内，且不呈现任何趋势。如下图：

正常的残差图

当然还有一些异常的残差图：

误差随着纵坐标的增加而增加

误差随着纵坐标的增加而减少

误差中间大，两端小

回归函数可能非线性，或者误差相关或者漏掉重要的自变量

回归函数可能非线性

2.3 残差诊断的思路

如果残差图中显示非线性，可适当增加自变量的二次项或者交叉项。具体问题具体分析。

如果残差图中显示误差方差不相等(heterogeneity, 方差非齐性)，可以对变量做适当的变换，使得变换后的相应变量具有近似相等的方差(homogeneity, 方差齐性)。最著名的方法是Box-Cox变换，对因变量（响应变量）进行如下变换： $Y{(\lambda)} = \begin{cases} \frac 1\lambda (Y^{\lambda}-1) \ \lambda \neq 0\\ \log Y\ \lambda=0 \end{cases}$
其中， $\lambda$ 是待定的变换参数，可由极大似然法估计。注意此变换只是针对 $Y$ 为正数的情况。如果出现负数时，需要作出调整。

2.4 离群值

原因：

主观原因：收集和记录数据时出现错误
客观原因：重尾分布（比如， $t$ 分布）和混合分布

离群值的简单判断：

数据散点图
学生化残差图，如果 $t_i|>3$ (或者2.5,2)，则对应的数据判定为离群值。
离群值的统计检验方法，M-估计(Maximum likelihood type estimators)
利用Cook距离，其定义为： $D_i = \frac{(\hat\beta-\hat\beta_{(i)})^\top X^\top X(\hat\beta-\hat\beta_{(i)}) }{p\hat\sigma^2},i=1,\dots,n$ 其中， $\hat\beta_{(i)}$ 为剔除第 $i$ 个数据得到 $\beta$ 的最小二乘估计

米法·

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
回归诊断

一、简介当我们建立线性模型后，可能也通过了F检验，但得到的模型就是合理的吗？不一定，因为有的数据可能并不是线性关系的，对于一元回归问题，我们或许可以通过画图观察自变量和因变量是否可以用线性模型刻画。但是，对于多元回归模型，试图通过画图的方式来判断线性关系是不可行的。那么，一般情况下，我们如何验证线性模型的合理性呢？这个时候就需要对所建立模型进行误差诊断，通过分析其残差来判断回归分析的基本假设是否成立。如发现果不成立，那么所有的区间估计、显著性检验都是不可靠的！二、残差2.1 残差的定义和性质这里
复制链接

扫一扫

专栏目录