t检验
如果变量是类别型的,那么可以直接使用7.3节中的显著性检验的方法。结果变量为连续型的组间,并假设其呈正态分布,则需要使用这节的方法。
数据准备
MASS 包中的 UScrime 数据集,包含了1960年美国47个州的刑罚制度对犯罪率影响的信息。感兴趣的变量:
Prob (监禁的概率)、
U1 (14~24岁年龄段城市男性失业率)
U2 (35~39岁年龄段城市男性失业率)
类别型变量 So (指示该州是否位于南方的指示变量)将作为分组变量使用
独立样本的t检验
这里假设两组数据是独立的,并且是从正态总体中抽得。
t.test(y ~ x, data)
y 是一个数值型变量
x 是一个二分变量
下面使用一个假设方差不等的双侧检验,比较了南方( group 1 )和非南
方( group 0 )各州的监禁概率:
> library(MASS)
> t.test(Prob ~ So,data=UScrime)
可以拒绝南方各州和非南方各州拥有相同监禁概率的假设(p<0.001)。
非独立样本的t检验
检验较年轻(14~24岁)男性的失业率是否比年长(35 ~ 39岁)男性的失业率更高。
这对样本是非独立样本。
非独立样本的t检验假定组间的差异呈正态分布。
t.test(y1, y2, paired=TRUE)
> library(MASS)
> sapply(UScrime[c("U1","U2")],function(x)(c(mean=mean(x),sd=sd(x))))
> with(UScrime,t.test(U1,U2,paired = TRUE))
可以拒绝年长和年轻男性的平均失业率相同的假设,年轻男性的失业率更高,差异的均值足够大(61.5)。
若总体均值相等,获取一个差异如此大的样本概率小于2.2e-16。