1.在科学研究中,经常假设收集的数据服从某一个分布
2.假设
检验统计量为
当
3 例子1 假设从一个总体取值为1,2,3,4,5。从总体中抽取50个数据,经过整理可得
显然
4. 如果p值远小于
5. 模拟的步骤如下:
(1)根据总体分布
(2)计算
(3)计算
(4)重复(1)(2)(3)可得
(5)p值
6. 例子2 假设一人投掷一枚骰子,1,2,3,4,5,6出现的次数分别为6,14,15,14,5,6。问该骰子是否均匀?
解:
即
检验统计量:
由于该p值估计值接近0.05,因此我们通过模拟来给出更精确的p值,从而说明是否拒绝原假设
t<-11.4
n<-60
r<-100000
TT<-c()
for (i in 1:r){
x<-sample(c(1,2,3,4,5,6),replace=TRUE,n)
N<-table(x)
s<-sum((N-10)^2/10)
TT<-c(TT,s)
}
p<-length(TT[TT>t])/r
运行结果如下:
> p
[1] 0.04171
统计模拟得到p值为0.04171<0.05,因此认为骰子六个面不是均匀的。
7.作业:
(1)投掷一枚硬币30次,结果如下:2 2 1 1 2 1 1 2 2 1 2 2 1 1 1 2 2 2 2 1 2 2 2 1 2 1 2 1 1 1,请用统计模拟的方法检验硬币是否均匀?(
x<-scan("clipboard")
chivalue<-sum((table(x)-15)^2/15)
chiv<-c()
r<-10000
for (i in 1:r){
xx<-sample(c(1,2),30,replace=T)
chiv<-c(chiv,sum((table(xx)-15)^2/15))
}
p<-length(chiv[chiv>chivalue])/r
p
> p
[1] 0.5831
p值的模拟结果为0.5831,大于0.05,因此不拒绝硬币均匀的假设。
(2)按照孟德尔遗传规律,让开淡红花的豌豆随机交配,子代可区分为红花、淡红花和白花三类,且其比例是1:2:1,为了验证某个理论,观察一次实验,得到红花、淡红花和白花的豌豆株数分别为26,66,28,这些数据与孟德尔定律是否一致?(
参考答案:
-------------------------------------分界线
利用卡方检验计算p值
chisq.test(c(26,66,28),p=c(0.25,0.5,0.25))
R程序运行结果为
Chi-squared test for given probabilities
data: c(26, 66, 28)
X-squared = 1.2667, df = 2, p-value = 0.5308
因此模拟的p值=0.5038>0.05,无法拒绝数据与孟德尔定律一致的假设。
-------------------------------------分界线
随机模拟方法计算p值:
num<-c(26,66,28)
n<-sum(num)
pp<-c(0.25,0.5,0.25)
chivalue<-sum((num-n*pp)^2/(n*pp))
chiv<-c()
r<-10000
for (i in 1:r){
xx<-sample(c(1,2,3),120,p=pp,replace=T)
chiv<-c(chiv,sum((table(xx)-n*pp)^2/(n*pp)))
}
p<-length(chiv[chiv>chivalue])/r
p
运行结果为:
> p
[1] 0.5036
因此模拟的p值=0.5036>0.05,无法拒绝数据与孟德尔定律一致的假设。
(3)投掷一枚骰子30次,结果如下:2 3 1 4 5 6 3 4 2 6 5 1 3 2 5 6 3 2 5 6 5 3 1 2 4 2 6 3 1 4 ,请用统计模拟的方法检验骰子是否均匀?
x<-scan("clipboard")
n<-length(x)
pp<-c(1,1,1,1,1,1)/6
chivalue<-sum((table(x)-n*pp)^2/(n*pp))
chiv<-c()
r<-10000
for (i in 1:r){
xx<-sample(1:6,120,replace=T)
chiv<-c(chiv,sum((table(xx)-n*pp)^2/(n*pp)))
}
p<-length(chiv[chiv>chivalue])/r
p