作为数据科学的重要基础学科,我开始share统计学的学习笔记。
本文内容分为三部分:
- 单个正态总体,总体方差已知,均值的置信区间,基于中心极限定理、标准正态分布,适用于样本量大的情况(n>100)
- 单个正态总体,总体方差未知,均值的置信区间,基于t分布,适用于样本量较小的情况
- Bootstrap,通过数值模拟求置信区间
Bootstrap算法:
- 已知数据X1...Xn,置信水平a(比如95%),模拟的总次数N
- N次模拟中的每一次模拟:从X1...Xn中有放回地抽取n个,算它们的平均值Yi,最终得到Y1...YN
- 算出Y1...YN的两个分位数,分位数对应的位置是(1-a)/2和(1+a)/2(比如0.025和0.975),就是区间端点
library(stats)
x=c(160.2,160.8,161.4,162,160.8,162,162,161.8,161.6,161.8)
N=10000
a=0.95
y=rep(0,N)
for (i in 1:N)
{
z=rep(0,10)
u=runif(10)
z=x[round(10*u)]
y[i]=mean(z)
}
ci=quantile(y,probs=c((1-a)/2,(1+a)/2))
hist(y,breaks=20)
abline(v=ci[1],col='red',lty=3)
abline(v=ci[2],col='red',lty=3)
以上是R语言代码示例。