对于点估计而言,我们不能期望它能给出总体参数的精确估计值,所以经常在点估计后加一个边际误差来计算区间估计。其格式为:
点估计 ± 边际误差
比如,总体均值的区间估计可表示为:
x¯±边际误差
。
下面,我们就总体标准差
σ
已知和未知两种情况下,对总体均值的区间估计进行讨论。
σ
已知
在一些应用中,我们抽样前可根据大量相关历史数据估计总体标准差,我们称这种情形为
σ
已知。然后我们可以根据公式
σx¯=σ/n‾‾√
计算样本标准差
σx¯
。
借助正态分布的性质,我们可以确定区间估计的大小。比如,我们有95%的把握相信区间
(x¯−1.96σx¯,x¯+1.96σx¯)
包括总体平均值
μ
(
=E(x¯)
) 。我们称这个区间是在95%置信水平下建立的,其中0.95为置信系数,
(x¯−σx¯,x¯+σx¯)
为置信区间。
σ
已知的情况下总体均值的区间估计可用以下公示表示:
x¯±zα/2σn√
其中 1−α 为置信系数, zα/2 表示标准正态概率右侧面积为 α/2 时的 z 值。
下面是常用的置信水平下的
置信水平 | α | α/2 | zα/2 |
---|---|---|---|
90% | 0.10 | 0.05 | 1.645 |
95% | 0.05 | 0.025 | 1.960 |
99% | 0.01 | 0.005 | 2.576 |
需要注意的是,如果总体服从正态分布,则给出的置信区间是精确的。如果总体不服从正态分布,以上方法给出的置信区间是近似的,近似程度与总体分布和样本容量有关。绝大部分应用中,样本容量
n≥30
已足够;如果总体分布不服从正态分布但大致堆成,样本容量至少要超过15才能得到置信区间一个好的近似。
σ
已知的情况大概讨论这些,下面看看
σ
未知的情况。
σ
未知
在实际工作中,往往总体标准差
σ
是未知的,常用样本标准差
s
作为总体标准差
x¯±tα/2sn√
其中 s 为样本标准差,1−α 为置信系数,自由度为 n−1 的 t 分布中tα/2 右侧的面积恰好是 α/2 。
通过查阅 t <script type="math/tex" id="MathJax-Element-1753">t</script> 分布表,即可解决此类问题。