异常点与强影响点（R语言）

最新推荐文章于 2023-12-20 16:40:28 发布

原创最新推荐文章于 2023-12-20 16:40:28 发布 · 9.9k 阅读

44 ·

CC 4.0 BY-SA版权

回归分析专栏收录该内容

18 篇文章

订阅专栏

1.关于因变量y的异常点

我们可以直接用R软件的rstudent()函数计算出删除学生化残差 $SRE_{(i)}$ 的数值， $∣SRE(i)∣>3\left | SRE_{(i)} \right |>3$ 的观测值即判定为异常值。

代码实现如下：

data2.2<-read.csv("C:/Users/Administrator/Desktop/data2.2.csv",head=TRUE)
lm2.2<-lm(y~x,data=data2.2)
rstudent(lm2.2)

输出结果为：
在这里插入图片描述
　　从输出结果可以看出，1号数据应该判定为异常点，直接删除。

2.关于自变量x的异常值

我们引入Cook距离，用来判断强影响点是否为 $y$ 的异常值点。Cook距离的计算公式为：
　　
　　 $Di=ei2(p+1)σ^2⋅hii(1−hii)2D_{i}=\frac{e_{i}^{2}}{(p+1)\hat{\sigma}^{2}}\cdot \frac{h_{ii}}{(1-h_{ii})^{2}}$
　　
　　对于Cook距离大小标准的判定比较复杂，一个粗略的标准是：当 $D_{1}<0.5$ 时，认为不是异常点；反之则认为是异常点。
　　实现代码如下：

data2.2<-read.csv("C:/Users/Administrator/Desktop/data2.2.csv",head=TRUE)
lm2.2<-lm(y~x,data=data2.2)
hii<-hatvalues(lm2.2)  # 计算杠杆值
cooks.distance(lm2.2)  # 计算Cook距离

输出结果如下：
在这里插入图片描述
　　从中可以看出，1号数据的Cook距离是大于0.5的，所以该点应该直接删除。