1.由于抽样的随机性,样本均值在不同总体上的差距很可能是由抽样误差引起的,而这种差距不被认为具有统计上的显著性。
2.反之,若分析发现样本均值在不同总体上差距较大,但不是由抽样误差引起的,则数值型变量在不同总体上的分布参数存在显著差异。
检验两个样本上的均值差是否统计显著的方法:参数检验&非参检验,步骤:
- h0&h1
- 构造检验统计。该检验统计量 在原假设成立条件下,服从某个已知的理论分布,这称为抽样分布。
- 依据样本数据计算在原假设成立的条件下,检验统计量的观测值与概率P值。检验统计量反映了观测值与原假设之间的差距,p反映了在原假设成立条件下检验统计量取当前观测值或更极端的可能性。
- 指定显著新水平α,原假设成立却拒绝的概率
- power:1-β,p(H0|H1)
1.两独立样本的均值检验
1.1.概述
适用数据:
观测样本来自总体中的两个独立样本,抽样个过程中互不干扰
检验目标:
量样本均值是否具有统计上的显著性。不具有显著性:均值差是由抽样误差导致的。
理论依据:
1.2抽样自举:
###############利用bootstrap模拟独立样本均值差的抽样分布 par(mfrow=c(2,1),mar=c(4,4,4,4)) set.seed(12345) #总体方差相等 Pop1<-rnorm(10000,mean=2,sd=2) Pop2<-rnorm(10000,mean=10,sd=2) Diff<-vector() Sdx1<-vector() Sdx2<-vector() #重复M次 for(i in 1:2000){ x1<-sample(Pop1,size=100,replace=TRUE)#随机选出100个 x2<-sample(Pop2,size=120,replace=TRUE) Diff<-c(Diff,(mean(x1)-mean(x2))) Sdx1<-c(Sdx1,sd(x1)) Sdx2<-c(Sdx2,sd(x2)) } plot(density(Diff),xlab="mean(x1)-mean(x2)",ylab="Density",main="均值差的抽样分布(等方差)",cex.main=0.7,cex.lab=0.7) points(mean(Diff),sd(Diff),pch=1,col=1) S1<-mean(Sdx1) S2<-mean(Sdx2) Sp<-((100-1)*S1^2+(120-1)*S2^2)/(100+120-2) #理论上的均值与方差:红三角 points((2-10),sqrt(Sp/100+Sp/120),pch=2,col=2) ###两方差不等 set.seed(12345) Pop1<-rnorm(10000,mean=2,sd=2) Pop2<-rnorm(10000,mean=10,sd=4) Diff<-vector() Sdx1<-vector() Sdx2<-vector() for(i in 1:2000){ x1<-sample(Pop1,size=100,replace=TRUE) x2<-sample(Pop2,size=120,replace=TRUE) Diff<-c(Diff,(mean(x1)-mean(x2))) Sdx1<-c(Sdx1,sd(x1)) Sdx2<-c(Sdx2,sd(x2)) } plot(density(Diff),xlab="mean(x1)-mean(x2)",ylab="Density",main="均值差的抽样分布(不等方差)",cex.main=0.7,cex.lab=0.7) points(mean(Diff),sd(Diff),pch=1,col=1) S1<-mean(Sdx1) S2<-mean(Sdx2) points((2-10),sqrt(S1^2/100+S2^2/120),pch=2,col=2)