抽样分布与置信区间:原理、计算与应用
1. 抽样分布相关知识
1.1 样本均值的抽样分布
在样本均值的抽样分布计算中,不同的计算方式会得到不同的概率结果。例如,计算 $Pr(\overline{X} < 21.5)$ 的“真实”理论概率约为 0.23,但基于样本统计数据标准化计算得到的相同概率约为 0.27(保留两位小数),代码如下:
R> pt(t4,df=4)
[1] 0.26855
样本均值的抽样分布性质取决于是否知道原始测量值的真实标准差 $\sigma_X$。当样本量 $n \geq 30$ 时,中心极限定理(CLT)确保抽样分布对称:若知道 $\sigma_X$ 的真实值,抽样分布为正态分布;若使用样本标准差 $s$ 估计 $\sigma_X$,抽样分布为自由度为 $\nu = n - 1$ 的 $t$ 分布。标准误差定义为标准差除以 $\sqrt{n}$。对于小样本量,需假设原始观测值呈正态分布。
1.2 样本比例的抽样分布
样本比例的抽样分布与样本均值的抽样分布解释方式类似。若进行 $n$ 次成功/失败事件试验,可得到成功比例的估计值;再次进行 $n$ 次试验,新的估计值可能会有所不同,这就是我们要研究的变异性。
设感兴趣的随机变量 $\hat{P}$ 表示任意 $n$ 次试验中成功的估计比例,每次试验产生某种定义的二元结果,其估计值为 $\hat{p} = \frac{x}{n}$,其中 $x$ 是样本量为 $n$ 的样本中的成功次数。对应的真实成功比例(通常未知)用 $\pi$ 表示。
超级会员免费看
订阅专栏 解锁全文
1078

被折叠的 条评论
为什么被折叠?



