方差分析:检验不同组别下的总体均值是否存在显著差异,可用于多个独立样本的均值检验。
前提假设:
- 观测变量的总体分布是正态分布;
- 不同组别下的观测变量的总体具有同方差。
1. 单因素方差分析
原理:离差平方和分解
SST(总离差平方和)=SSE(组内离差平方和)+SSA(组间离差平方和)
检验统计量
2. 单因素方差分析的数学模型
则
3. R函数 黑色粗体
res=aov(y~X,data)
summary(res)
总体正态性检验:
- qq图 (qqnorm,qqline)
- k-s检验 (ks.test)
方差齐性检验:
leveneTest
假设检验之Levene's Test 检验www.jianshu.com4. 单因素方差分析中的多重比较检验
- 多重比较-LSD检验
最小显著差异检验:
- 多重比较-Tukey HSD 检验(TukeyHSD)
相比t检验,q分布的临界值更大,更难拒绝原假设。
非setwd("E:/Rdata/薛薇_基于R的统计分析与数据挖掘/")
rm(list=ls())
dat<-read.table("CarData.txt",header=TRUE)
head(dat)
#单因素方差分析
res=aov(MPG~as.factor(ModelYear),dat)
#查看F检验的p值
summary(res) #和anova(res)效果一样
Result<-TukeyHSD(res,ordered = TRUE,conf.level = 0.95)
par(las=2)
linecol<-ifelse(Result[[1]][,4]<0.05,2,1) #两两比较p值小于0.05为红色,其余默认黑色
plot(Result,col=linecol)
5. 单因素方差分析的功效分析
假设检验的两类错误:
- 弃真,H0为真,拒绝了原假设,其犯错的概率为
;
- 存伪,H0为假,接受了原假设,其犯错的概率为
。
统计功效power:1-β,正确地拒绝原假设的概率。主要受以下因素的影响:
- 显著性水平α越小,β越大,1-β越小;
- 两总体均值差异越大,检验功效1-β越大;
- 通常用效应量,Effect Size,来反映两个总体均值的相对差异。
-
- pwr.t.test(d=效应量,n=样本量,sig.level=显著性水平,power=统计功效)
- 样本容量越大,统计功效越大。
方差分析经常用于实验设计中,功效分析的重点在于样本容量的确定。
方差分析的效应量
f=0.1为低效应,0.25中等效应,0.4为高效应。
在控制变量水平数,检验功效和显著性水平一定时,效应量与样本量成反比。即低效应需要更多的样本。
#功效分析
library(pwr)
pwr.anova.test(k=13,f=0.25,sig.level = 0.05,
power=0.8)
#每个水平至少需要23个样本