《商务与经济统计》笔记第八章
区间估计
我们发现点估计量是用于估计总体参数的样本统计量。因为我们不可能期望点估计量能给出总体参数的精确值,所以经常在点估计上加减一个被称为边际误差的值来计算区间估计。
区间估计的一般形式:点估计 +/- 边际误差
在计算区间估计时,抽样分布起到了非常重要的作用。
8.1 总体均值的区间估计:σ 已知情形
为了对总体均值进行区间估计,必须利用总体标准差 σ 或者样本标准差 s 计算边际误差。在大多数应用中, σ 是未知的,于是用 s 计算边际误差。
但是在一些应用中,我们在抽样前可以根据大量有关的历史数据估计总体标准差,这种情形为 σ 已知。
8.1.1 边际误差和区间估计
x ‾ \overline x x 的抽样分布提供了关于 x ‾ \overline x x 和 μ 之间可能存在的差别信息。
我们知道,任何正态分布随机变量都有95%的值在均值附近的 ± \pm ± 的1.96个标准差之内。因此当 $\overline x$ 的抽样分布是正态分布时,一定有95%的 x ‾ \overline x x 的值在均值 μ ± 1.96 σ x ‾ \mu \pm 1.96{\sigma _{\overline x }} μ±1.96σx 以内。
举例来讲:已知 x ‾ \overline x x 的抽样分布时正态分布,且标准差 σ x ‾ = 2 {\sigma _{\overline x }} = 2 σx=2。所以在样本容量n为100的情况下, x ‾ \overline x x 的所有值中有95%落在总体均值 μ 附近 ± 3.92 \pm 3.92 ±3.92 以内。
由于所有样本均值中有95%落在 总体均值 μ 附近 ± 3.92 \pm 3.92 ±3.92 的区域内,所以 x ‾ ± 3.92 \overline x \pm 3.92 x±3.92 所构造的所有区间中有95%的区间包含总体均值 μ。【注:这里的所有区间中的所有指的是反复抽取计算的所有的样本均值,区间是指的每个样本均值 ± 3.92 \pm 3.92 ±3.92所得到的区间。】
针对上面的例子,假如某次抽样得到的样本均值
x
‾
=
82
\overline x = 82
x=82 ,利用
x
‾
±
3.92
\overline x \pm 3.92
x±3.92 构造区间估计,得到 μ 的区间估计为 (78.08 , 85.92)
。利用
x
‾
±
3.92
\overline x \pm 3.92
x±3.92 构造的所有区间中有95%包含总体均值,所以我们说有95%的把握相信区间 (78.08 , 85.92)
包括总体均值 μ 。我们称这个区间是在95%的置信水平下建立的,其中数值0.95称为置信系数,区间 (78.08 , 85.92)
称为95%置信区间。
总体均值的区间估计:σ 已知情形
x ‾ ± z α / 2 σ n \overline x \pm {z_{\alpha /2}}\frac{\sigma }{{\sqrt n }} x±zα/2nσ
式中,1-α 为置信系数,
z
α
/
2
{z_{\alpha /2}}
zα/2 表示标准正态概率分布上侧面积为
α
/
2
{\alpha /2}
α/2 时的Z值。
1-α 为置信系数,等于0.95,所以α=0.05。
最常用的置信水平下的 z α / 2 {z_{\alpha /2}} zα/2 值:
置信水平 | α | α / 2 {\alpha /2} α/2 | z α / 2 {z_{\alpha /2}} zα/2 |
---|---|---|---|
90% | 0.10 | 0.05 | 1.645 |
95% | 0.05 | 0.025 | 1.960 |
99% | 0.01 | 0.005 | 2.576 |
8.1.2 应用中的建议
如果总体服从正态分布,上节所给的置信区间是精确的。换言之,如果利用公式反复计算95%的置信区间,则得到的所有置信区间中恰好有95%的区间包含总体均值。
如果总体不服从正态分布,则公式计算得到的置信区间是近似的。近似的程度依赖于总体的分布和样本容量。
在绝大部分应用中,建立总体均值的区间估计时,样本容量 >=30已经足够。
如果总体分布不服从正态分布但是大致对称,则样本容量至少为15时才能得到置信区间的一个好的近似。
注意:在区间估计的表达式中,样本容量n出现在分母上。于是,实际应用中当某一样本容量产生的区间太宽时,可以考虑增大样本容量。由于n出现在分母上,增大样本容量可以使边际误差减小,使区间变窄,精度提高。
8.2 总体均值的区间估计:σ 未知情形
在建立总体均值的区间估计时,通常并没有关于总体标准差的一个好的估计。在这种情形下,必须利用同一样本估计 μ 和 σ 两个未知参数。
当利用 s 估计 σ 时,边际误差和总体均值的区间估计都以 t 分布
的概率分布为依据进行的。
t 分布是由一类相似的概率分布组成的分布族,某个特定的 t 分布依赖于称为自由度的参数。当自由度分别为1、2、3、…时,有且仅有唯一的 t 分布与之对应。随着自由度的增大, t 分布与标准正态分布之间的差别变得越来越小。
给 t 加下标以表明其在 t 分布上侧的面积。如 t 0.025 {t_{0.025}} t0.025 表示在 t 分布该值上侧的面积为0.025。一般的,用记号 t α / 2 {t_{\alpha /2}} tα/2 表示在 t 分布中 t α / 2 {t_{\alpha /2}} tα/2 上侧的面积为 α / 2 {\alpha /2} α/2 。
8.2.1 边际误差和区间估计
总体均值的区间估计: σ 未知情形
x ‾ ± t α / 2 s n \overline x \pm {t_{\alpha /2}}\frac{s}{{\sqrt n }} x±tα/2ns
式中,s为样本标准差;1-α为置信系数;自由度为n-1的 t 分布中,
t
α
/
2
{t_{\alpha /2}}
tα/2上侧的面积正好等于
α
/
2
{\alpha /2}
α/2 ;在式中,与 t 值对用的自由度为 n-1。
问:为什么自由度为 n-1 ?
答:因为对于所有的数据集,都有
∑
(
x
i
−
x
‾
)
2
=
0
{\sum {\left( {{x_i} - \overline x } \right)} ^2} = 0
∑(xi−x)2=0 ,因此,
(
x
i
−
x
‾
)
{\left( {{x_i} - \overline x } \right)}
(xi−x) 中只有 n-1 项是独立的,即如果我们知道了 n-1 个值,则可以确定余下的值。于是,与
∑
(
x
i
−
x
‾
)
2
{\sum {\left( {{x_i} - \overline x } \right)} ^2}
∑(xi−x)2 所联系的自由度的个数为 n-1。
8.2.2 应用中的建议
如果总体服从正态分布,公式所给的置信区间是精确的,并且适用于任何样本容量。
如果总体不服从正态分布,则公式计算得到的置信区间是近似的。近似的程度依赖于总体的分布和样本容量。
在绝大部分应用中,建立总体均值的区间估计时,样本容量 >=30已经足够。
然而如果总体分布严重偏斜或者包含异常点,建议将样本容量增加到50或者更大。
8.2.3 区间估计方法小结
总体均值的区间估计方法【流程图】
注意:当 σ 已知时,对所有容量为 n 的样本边际误差是相同的,为
2
α
/
2
(
σ
/
n
)
{2_{\alpha /2}}\left( {\sigma /\sqrt n } \right)
2α/2(σ/n) 。
当 σ 未知时,边际误差
t
α
/
2
(
s
/
n
)
{t_{\alpha /2}}\left( {s/\sqrt n } \right)
tα/2(s/n) 随着样本的变化而变化,这是由于样本标准差 s 依赖于抽取的样本。s 越大边际误差越大,s 越小边际误差越小。
8.3 样本容量的确定
总体均值区间估计的样本容量:
n = ( z α / 2 ) 2 σ 2 E 2 n = \frac{{{{\left( {{z_{\alpha /2}}} \right)}^2}{\sigma ^2}}}{{{E^2}}} n=E2(zα/2)2σ2
E值是使用者可接受的边际误差, z α / 2 {{z_{\alpha /2}}} zα/2 可由区间估计中所用到的置信水平确定。σ 要求是已知的。
8.4 总体比率
总体比率 p 的区间估计的一般形式: p ‾ ± \overline p \pm p±边际误差。
第七章已证明,当 n p ⩾ 5 np \geqslant 5 np⩾5 且 n ( 1 − p ) ⩾ 5 n\left( {1 - p} \right) \geqslant 5 n(1−p)⩾5 时, p ‾ \overline p p 的抽样分布近似服从正态分布。
p ‾ \overline p p 的抽样分布的均值是总体比率 p , p ‾ \overline p p 的标准差是: σ p ‾ = p ( 1 − p ) n {\sigma _{\overline p }} = \sqrt {\frac{{p\left( {1 - p} \right)}}{n}} σp=np(1−p)
总体比率的区间估计:
p ‾ ± z α / 2 p ‾ ( 1 − p ‾ ) n \overline p \pm {z_{\alpha /2}}\sqrt {\frac{{\overline p \left( {1 - \overline p } \right)}}{n}} p±zα/2np(1−p)
式中,1-α 为置信系数, z α / 2 {z_{\alpha /2}} zα/2 表示标准正态概率分布上侧面积为 α / 2 {{\alpha /2}} α/2 时的Z值。
样本容量的确定:
n = ( z α / 2 ) 2 p ‾ ( 1 − p ‾ ) E 2 n = \frac{{{{\left( {{z_{\alpha /2}}} \right)}^2}\overline p \left( {1 - \overline p } \right)}}{{{E^2}}} n=E2(zα/2)2p(1−p)
E值是使用者可接受的边际误差, z α / 2 {{z_{\alpha /2}}} zα/2 可由区间估计中所用到的置信水平确定。
由于抽样前
p
‾
\overline p
p 是未知的,因此上式并不能用于计算达到预期的边际误差所需要的样本容量。于是需要一个
p
‾
\overline p
p 的计划值
p
∗
{p^*}
p∗ 。
则总体比率区间估计的样本容量为:
n = ( z α / 2 ) 2 p ∗ ( 1 − p ∗ ) E 2 n = \frac{{{{\left( {{z_{\alpha /2}}} \right)}^2}{p^*}\left( {1 - {p^*}} \right)}}{{{E^2}}} n=E2(zα/2)2p∗(1−p∗) 。
实践中,可选择如下方法确定计划值
p
∗
{p^*}
p∗ :
1、用以前相同或类似样本的样本比率来代替;
2、利用实验性的研究,选取一个初始样本,以该样本的样本比率作为计划值
p
∗
{p^*}
p∗ ;
3、使用判断或者最有猜测作为
p
∗
{p^*}
p∗ 值;
4、如果上述方法均不适用,则取计划值
p
∗
=
0.5
{p^* =0.5}
p∗=0.5 .