1.关于因变量y的异常点
我们可以直接用R软件的rstudent()函数计算出删除学生化残差SRE(i)SRE_{(i)}SRE(i)的数值,∣SRE(i)∣>3\left | SRE_{(i)} \right |>3∣∣SRE(i)∣∣>3的观测值即判定为异常值。
代码实现如下:
data2.2<-read.csv("C:/Users/Administrator/Desktop/data2.2.csv",head=TRUE)
lm2.2<-lm(y~x,data=data2.2)
rstudent(lm2.2)
输出结果为:

从输出结果可以看出,1号数据应该判定为异常点,直接删除。
2.关于自变量x的异常值
我们引入Cook距离,用来判断强影响点是否为yyy的异常值点。Cook距离的计算公式为:
Di=ei2(p+1)σ^2⋅hii(1−hii)2D_{i}=\frac{e_{i}^{2}}{(p+1)\hat{\sigma}^{2}}\cdot \frac{h_{ii}}{(1-h_{ii})^{2}}Di=(p+1)σ^2ei2⋅(1−hii)2hii
对于Cook距离大小标准的判定比较复杂,一个粗略的标准是:当D1<0.5D_{1}<0.5D1<0.5时,认为不是异常点;反之则认为是异常点。
实现代码如下:
data2.2<-read.csv("C:/Users/Administrator/Desktop/data2.2.csv",head=TRUE)
lm2.2<-lm(y~x,data=data2.2)
hii<-hatvalues(lm2.2) # 计算杠杆值
cooks.distance(lm2.2) # 计算Cook距离
输出结果如下:

从中可以看出,1号数据的Cook距离是大于0.5的,所以该点应该直接删除。
684

被折叠的 条评论
为什么被折叠?



