《商务与经济统计》笔记第八章

区间估计

我们发现点估计量是用于估计总体参数的样本统计量。因为我们不可能期望点估计量能给出总体参数的精确值,所以经常在点估计上加减一个被称为边际误差的值来计算区间估计

区间估计的一般形式:点估计 +/- 边际误差

在计算区间估计时,抽样分布起到了非常重要的作用。

8.1 总体均值的区间估计:σ 已知情形

为了对总体均值进行区间估计,必须利用总体标准差 σ 或者样本标准差 s 计算边际误差。在大多数应用中, σ 是未知的,于是用 s 计算边际误差。
但是在一些应用中,我们在抽样前可以根据大量有关的历史数据估计总体标准差,这种情形为 σ 已知。

8.1.1 边际误差和区间估计

x ‾ \overline x x 的抽样分布提供了关于 x ‾ \overline x x 和 μ 之间可能存在的差别信息。

我们知道,任何正态分布随机变量都有95%的值在均值附近的 ± \pm ± 的1.96个标准差之内。因此当 $\overline x$ 的抽样分布是正态分布时,一定有95%的 x ‾ \overline x x 的值在均值 μ ± 1.96 σ x ‾ \mu \pm 1.96{\sigma _{\overline x }} μ±1.96σx 以内。

举例来讲:已知 x ‾ \overline x x 的抽样分布时正态分布,且标准差 σ x ‾ = 2 {\sigma _{\overline x }} = 2 σx=2。所以在样本容量n为100的情况下, x ‾ \overline x x 的所有值中有95%落在总体均值 μ 附近 ± 3.92 \pm 3.92 ±3.92 以内。

由于所有样本均值中有95%落在 总体均值 μ 附近 ± 3.92 \pm 3.92 ±3.92 的区域内,所以 x ‾ ± 3.92 \overline x \pm 3.92 x±3.92 所构造的所有区间中有95%的区间包含总体均值 μ。【注:这里的所有区间中的所有指的是反复抽取计算的所有的样本均值,区间是指的每个样本均值 ± 3.92 \pm 3.92 ±3.92所得到的区间。】

针对上面的例子,假如某次抽样得到的样本均值 x ‾ = 82 \overline x = 82 x=82 ,利用 x ‾ ± 3.92 \overline x \pm 3.92 x±3.92 构造区间估计,得到 μ 的区间估计为 (78.08 , 85.92)。利用 x ‾ ± 3.92 \overline x \pm 3.92 x±3.92 构造的所有区间中有95%包含总体均值,所以我们说有95%的把握相信区间 (78.08 , 85.92) 包括总体均值 μ 。我们称这个区间是在95%的置信水平下建立的,其中数值0.95称为置信系数,区间 (78.08 , 85.92) 称为95%置信区间

总体均值的区间估计:σ 已知情形

x ‾ ± z α / 2 σ n \overline x \pm {z_{\alpha /2}}\frac{\sigma }{{\sqrt n }} x±zα/2n σ

式中,1-α 为置信系数, z α / 2 {z_{\alpha /2}} zα/2 表示标准正态概率分布上侧面积为 α / 2 {\alpha /2} α/2 时的Z值。
1-α 为置信系数,等于0.95,所以α=0.05。

最常用的置信水平下的 z α / 2 {z_{\alpha /2}} zα/2 值:

置信水平α α / 2 {\alpha /2} α/2 z α / 2 {z_{\alpha /2}} zα/2
90%0.100.051.645
95%0.050.0251.960
99%0.010.0052.576

8.1.2 应用中的建议

如果总体服从正态分布,上节所给的置信区间是精确的。换言之,如果利用公式反复计算95%的置信区间,则得到的所有置信区间中恰好有95%的区间包含总体均值。

如果总体不服从正态分布,则公式计算得到的置信区间是近似的。近似的程度依赖于总体的分布和样本容量。
在绝大部分应用中,建立总体均值的区间估计时,样本容量 >=30已经足够。
如果总体分布不服从正态分布但是大致对称,则样本容量至少为15时才能得到置信区间的一个好的近似。

注意:在区间估计的表达式中,样本容量n出现在分母上。于是,实际应用中当某一样本容量产生的区间太宽时,可以考虑增大样本容量。由于n出现在分母上,增大样本容量可以使边际误差减小,使区间变窄,精度提高。

8.2 总体均值的区间估计:σ 未知情形

在建立总体均值的区间估计时,通常并没有关于总体标准差的一个好的估计。在这种情形下,必须利用同一样本估计 μ 和 σ 两个未知参数。

当利用 s 估计 σ 时,边际误差和总体均值的区间估计都以 t 分布的概率分布为依据进行的。

t 分布是由一类相似的概率分布组成的分布族,某个特定的 t 分布依赖于称为自由度的参数。当自由度分别为1、2、3、…时,有且仅有唯一的 t 分布与之对应。随着自由度的增大, t 分布与标准正态分布之间的差别变得越来越小。

给 t 加下标以表明其在 t 分布上侧的面积。如 t 0.025 {t_{0.025}} t0.025 表示在 t 分布该值上侧的面积为0.025。一般的,用记号 t α / 2 {t_{\alpha /2}} tα/2 表示在 t 分布中 t α / 2 {t_{\alpha /2}} tα/2 上侧的面积为 α / 2 {\alpha /2} α/2

8.2.1 边际误差和区间估计

总体均值的区间估计: σ 未知情形

x ‾ ± t α / 2 s n \overline x \pm {t_{\alpha /2}}\frac{s}{{\sqrt n }} x±tα/2n s

式中,s为样本标准差;1-α为置信系数;自由度为n-1的 t 分布中, t α / 2 {t_{\alpha /2}} tα/2上侧的面积正好等于 α / 2 {\alpha /2} α/2 ;在式中,与 t 值对用的自由度为 n-1。
问:为什么自由度为 n-1 ?
答:因为对于所有的数据集,都有 ∑ ( x i − x ‾ ) 2 = 0 {\sum {\left( {{x_i} - \overline x } \right)} ^2} = 0 (xix)2=0 ,因此, ( x i − x ‾ ) {\left( {{x_i} - \overline x } \right)} (xix) 中只有 n-1 项是独立的,即如果我们知道了 n-1 个值,则可以确定余下的值。于是,与 ∑ ( x i − x ‾ ) 2 {\sum {\left( {{x_i} - \overline x } \right)} ^2} (xix)2 所联系的自由度的个数为 n-1。

8.2.2 应用中的建议

如果总体服从正态分布,公式所给的置信区间是精确的,并且适用于任何样本容量。

如果总体不服从正态分布,则公式计算得到的置信区间是近似的。近似的程度依赖于总体的分布和样本容量。

在绝大部分应用中,建立总体均值的区间估计时,样本容量 >=30已经足够。
然而如果总体分布严重偏斜或者包含异常点,建议将样本容量增加到50或者更大。

8.2.3 区间估计方法小结

总体均值的区间估计方法【流程图】

注意:当 σ 已知时,对所有容量为 n 的样本边际误差是相同的,为 2 α / 2 ( σ / n ) {2_{\alpha /2}}\left( {\sigma /\sqrt n } \right) 2α/2(σ/n )
当 σ 未知时,边际误差 t α / 2 ( s / n ) {t_{\alpha /2}}\left( {s/\sqrt n } \right) tα/2(s/n ) 随着样本的变化而变化,这是由于样本标准差 s 依赖于抽取的样本。s 越大边际误差越大,s 越小边际误差越小。

8.3 样本容量的确定

总体均值区间估计的样本容量:

n = ( z α / 2 ) 2 σ 2 E 2 n = \frac{{{{\left( {{z_{\alpha /2}}} \right)}^2}{\sigma ^2}}}{{{E^2}}} n=E2(zα/2)2σ2

E值是使用者可接受的边际误差, z α / 2 {{z_{\alpha /2}}} zα/2 可由区间估计中所用到的置信水平确定。σ 要求是已知的。

8.4 总体比率

总体比率 p 的区间估计的一般形式: p ‾ ± \overline p \pm p±边际误差。

第七章已证明,当 n p ⩾ 5 np \geqslant 5 np5 n ( 1 − p ) ⩾ 5 n\left( {1 - p} \right) \geqslant 5 n(1p)5 时, p ‾ \overline p p 的抽样分布近似服从正态分布。

p ‾ \overline p p 的抽样分布的均值是总体比率 p , p ‾ \overline p p 的标准差是: σ p ‾ = p ( 1 − p ) n {\sigma _{\overline p }} = \sqrt {\frac{{p\left( {1 - p} \right)}}{n}} σp=np(1p)

总体比率的区间估计:

p ‾ ± z α / 2 p ‾ ( 1 − p ‾ ) n \overline p \pm {z_{\alpha /2}}\sqrt {\frac{{\overline p \left( {1 - \overline p } \right)}}{n}} p±zα/2np(1p)

式中,1-α 为置信系数, z α / 2 {z_{\alpha /2}} zα/2 表示标准正态概率分布上侧面积为 α / 2 {{\alpha /2}} α/2 时的Z值。

样本容量的确定:

n = ( z α / 2 ) 2 p ‾ ( 1 − p ‾ ) E 2 n = \frac{{{{\left( {{z_{\alpha /2}}} \right)}^2}\overline p \left( {1 - \overline p } \right)}}{{{E^2}}} n=E2(zα/2)2p(1p)

E值是使用者可接受的边际误差, z α / 2 {{z_{\alpha /2}}} zα/2 可由区间估计中所用到的置信水平确定。

由于抽样前 p ‾ \overline p p 是未知的,因此上式并不能用于计算达到预期的边际误差所需要的样本容量。于是需要一个 p ‾ \overline p p 的计划值 p ∗ {p^*} p
则总体比率区间估计的样本容量为:

n = ( z α / 2 ) 2 p ∗ ( 1 − p ∗ ) E 2 n = \frac{{{{\left( {{z_{\alpha /2}}} \right)}^2}{p^*}\left( {1 - {p^*}} \right)}}{{{E^2}}} n=E2(zα/2)2p(1p)

实践中,可选择如下方法确定计划值 p ∗ {p^*} p
1、用以前相同或类似样本的样本比率来代替;
2、利用实验性的研究,选取一个初始样本,以该样本的样本比率作为计划值 p ∗ {p^*} p
3、使用判断或者最有猜测作为 p ∗ {p^*} p 值;
4、如果上述方法均不适用,则取计划值 p ∗ = 0.5 {p^* =0.5} p=0.5 .

  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值