这是一个短篇,主要用于补充上一篇ANOVA假设检验的问题。
在ANOVA中,假设检验不仅仅要包括上一篇中所说的那三类。还会有异常值检验,就是所说的outliers。
我们可以看一下boxplot中的异常值:
这些地方在正态检验的时候是存在异常值的,那么我们为了数据的健康,这些异常值必须要拿掉,那么我们用R语言走一遍流程。
outliersx6<-boxplot(x6 ~ x1, data = x,
xlab = "customer type", ylab = "product quality",
main = "compare", col = c("#00AFBB", "#E7B800", "#FC4E07")
, names=c("<1 year","1-5 years",">5 years") )
print(outliersx6)
我们直接使用boxplot对outliers变量赋值就能看到outliers,
我们看看结果:
就会出现一个叫out的属性,保存着异常值,那么我们开始剔除他们。
out1<-x[x$x1==3 & x$x6==7.6,]
print(out1)
out2<-x[x$x1==1 & x$x6==9.5,]
print(out2)
outAll<- rbind(out1,out2)
print(outAll)
x<-x[-which(x$id %in% outAll$id),]
结果如下:
原来的异常值消失了,但是可能会出现新的异常,但是我们就不再处理了,处理一次就可以了。