目录
一、正态分布假设
判断假设是否合理的方法
1.直方图hist
wts12<-ChickWeight$weight[which(ChickWeight$Time==12)]
library(MASS)
hist(wts12)
2.密度图truehist
truehist(wts12)
3.分位数-分位数(QQ)图 dnorm
mu=mean(wts12)
sigma=sd(wts12)
x<-seq(0,250,1)
px<-dnorm(x,mean=mu,sd=sigma)
4.QQ图
install.packages("car")
library(car)
qqPlot(wts12)
qqPlot(UScereal$fibre)
二、数据中的异常值
以数据UScereal为例
outlierIndex <- which(UScereal$fibre > 25)
rownames(UScereal)[outlierIndex]
[1] "100% Bran" "All-Bran"
[3] "All-Bran with Extra Fiber"
异常值不一定是错误值
检测单变量离群值
1.三倍标准差法则
(1)纤维含量
plot(UScereal$fibre)
sigma=sd(UScereal$fibre)
abline(h=3*sigma)
2.Hampel标识法
使用中位数代替均值,使用MADM(mad函数)代替标准差
MADM<-mad(UScereal$fibre)
plot(UScereal$fibre)
abline(h=3*MADM)
3.箱线图离群值规则
上四分位数、下四分位数
plot(UScereal$fibre);
a<-quantile(UScereal$fibre,probs=0.75);
b<-quantile(UScereal$fibre,probs=0.25)
abline(h=a);abline(h=b)
多种图来展示数据,都能比较直观的看出数据显示出两个峰值。
hist(geyser$duration)
plot(geyser$duration)
plot(density(geyser$duration))
qqPlot(geyser$duration)
分类变量
(1)箱线图
其中,宽度代表不同种类数量的多少,纵坐标代表该类对应的数值的大小。
boxplot(MPG.city ~ Cylinders, data = Cars93,xlab = "Cylinders", ylab = "MPG.city",varwidth = TRUE)
(2)马赛克图
mosaicplot( Cylinders~ Origin, data =Cars93)