残差的尺度化方法

HE1029

已于 2024-10-31 16:00:43 修改

阅读量658

点赞数 10

文章标签：学习线性回归

于 2024-10-31 09:23:46 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/HEHEE1029/article/details/143381113

版权

内容来源

线性回归分析导论原书第5版机械工业出版社

尺度化残差用于寻找观测值中的离群值

书中有四种残差尺度化的方法，本篇讲标准化残差与学生化残差

标准化残差

定义如下

$d_i=\frac{e_i}{\sqrt{MS_{残}}}$

$MS_{残}$ 是残差的平均方差的估计量

标准化的残差有零均值和近似为一的方差

有较大的标准化残差，可能意味着对应的数据是离群点（比如 $d_i>3$ ）

就是构造了一个零均值一方差的随机变量，简单但没那么有效

学生化残差

因为 $MS_{残}$ 仅仅是平均方差的估计量

所以将其替换为第 $i$ 个残差的精确标准差是一种显而易见的改进方法

残差向量可以写为

$e = (I - H) y$

带入 $y=X\beta+\epsilon$ ，得

$\begin{align*} e&=(I-H)(X\beta+\epsilon)\\ &=X\beta-HX\beta+(I-H)\epsilon\\ &=X\beta-X(X'X)^{-1}X'X\beta+(I-H)\epsilon\\ &=(I-H)\epsilon \end{align*}$

所以

残差可由观测值 $y$ 或误差 $\epsilon$ 作相同的线性变换得出

残差的协方差矩阵为

$Var(e)=Var[(I-H)\epsilon]=(I-H)Var(\epsilon)(I-H)'=\sigma^2(I-H)$

矩阵 $I - H$ 一般不是对角阵，所以每个残差有不同的方差，不同残差可能是相关的

第 $i$ 个残差的方差为

$Var(e_i)=\sigma^2(1-h_{ii})$

不同残差之间的协方差为

$Cov(e_i,e_j)=-\sigma^2h_{ij}$

其中 $h_{ij}$ 表示帽子矩阵的第 $i$ 行第 $j$ 列的元素

由于 $h_{ii}\in[0,1]$ ，所以使用残差均方 $MS_{残}$ 来估计残差的方差会高估 $Var(e_i)$

学生化残差的式子如下

$r_i=\frac{e_i}{\sqrt{MS_{残}(1-h_{ii})}}$

当模型形式正确时，无论 $x_i$ 的位置如何，学生化残差都有常数方差 $Var(r_i)=1$

在大型数据集的情形下，标准化残差与学生化残差几乎没有区别，两者传递的信息通常是等价的

但是，由于任何残差较大且 $h_{ii}$ 较大的点都有可能对最小二乘拟合有较大影响，所以一般而言推荐使用学生化残差

博客等级

码龄3年

104
原创

1698
点赞

1447
收藏

883
粉丝

关注

私信

热门文章

最新评论

齐次线性微分方程的解的性质与结构
征途黯然.: 齐次线性微分方程解的存在性与唯一性在何种边界条件下受连续系数函数的影响？
学生定理(t分布的推论)
HE1029: 已改正，感谢纠正
学生定理(t分布的推论)
whisper_0122: 问题3中，V拆开式中第二行第二项不应该平方，似乎打错了
最大值与最小值的分布（多维随机变量函数的分布）
多彩电脑: 谢谢，正想研究这个呢
常数变易法
CSDN-Ada助手: 恭喜你这篇博客进入【CSDN每天最佳新人】榜单，全部的排名请看 https://bbs.csdn.net/topics/618897139。

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。