《商务与经济统计》笔记第八章

三千炎焱

于 2021-11-04 17:00:28 发布

阅读量647

点赞数

分类专栏：《商务与经济统计》第13版学习笔记文章标签：概率论

本文链接：https://blog.csdn.net/weixin_43001972/article/details/112323326

版权

《商务与经济统计》第13版学习笔记专栏收录该内容

7 篇文章 6 订阅

订阅专栏

《商务与经济统计》笔记第八章

区间估计

区间估计

我们发现点估计量是用于估计总体参数的样本统计量。因为我们不可能期望点估计量能给出总体参数的精确值，所以经常在点估计上加减一个被称为边际误差的值来计算区间估计。

区间估计的一般形式：点估计 +/- 边际误差

在计算区间估计时，抽样分布起到了非常重要的作用。

8.1 总体均值的区间估计：σ 已知情形

为了对总体均值进行区间估计，必须利用总体标准差 σ 或者样本标准差 s 计算边际误差。在大多数应用中， σ 是未知的，于是用 s 计算边际误差。
但是在一些应用中，我们在抽样前可以根据大量有关的历史数据估计总体标准差，这种情形为 σ 已知。

8.1.1 边际误差和区间估计

$\overline x$ 的抽样分布提供了关于 $\overline x$ 和 μ 之间可能存在的差别信息。

我们知道，任何正态分布随机变量都有95%的值在均值附近的 $\pm$ 的1.96个标准差之内。因此当 $\overline x$ 的抽样分布是正态分布时，一定有95%的 $\overline x$ 的值在均值 $\mu \pm 1.96{\sigma _{\overline x }}$ 以内。

举例来讲：已知 $\overline x$ 的抽样分布时正态分布，且标准差 ${\sigma _{\overline x }} = 2$ 。所以在样本容量n为100的情况下， $\overline x$ 的所有值中有95%落在总体均值 μ 附近 $±3.92 \pm 3.92$ 以内。

由于所有样本均值中有95%落在总体均值 μ 附近 $±3.92 \pm 3.92$ 的区域内，所以 $\overline x \pm 3.92$ 所构造的所有区间中有95%的区间包含总体均值 μ。【注：这里的所有区间中的所有指的是反复抽取计算的所有的样本均值，区间是指的每个样本均值 $±3.92 \pm 3.92$ 所得到的区间。】

针对上面的例子，假如某次抽样得到的样本均值 $\overline x = 82$ ，利用 $\overline x \pm 3.92$ 构造区间估计，得到 μ 的区间估计为 (78.08 , 85.92)。利用 $\overline x \pm 3.92$ 构造的所有区间中有95%包含总体均值，所以我们说有95%的把握相信区间 (78.08 , 85.92) 包括总体均值 μ 。我们称这个区间是在95%的置信水平下建立的，其中数值0.95称为置信系数，区间 (78.08 , 85.92) 称为95%置信区间。

总体均值的区间估计：σ 已知情形

$\overline x \pm {z_{\alpha /2}}\frac{\sigma }{{\sqrt n }}$

式中，1-α 为置信系数， ${z_{\alpha /2}}$ 表示标准正态概率分布上侧面积为 ${\alpha /2}$ 时的Z值。
1-α 为置信系数，等于0.95，所以α=0.05。

最常用的置信水平下的 ${z_{\alpha /2}}$ 值：

置信水平	α	${\alpha /2}$	${z_{\alpha /2}}$
90%	0.10	0.05	1.645
95%	0.05	0.025	1.960
99%	0.01	0.005	2.576

8.1.2 应用中的建议

如果总体服从正态分布，上节所给的置信区间是精确的。换言之，如果利用公式反复计算95%的置信区间，则得到的所有置信区间中恰好有95%的区间包含总体均值。

如果总体不服从正态分布，则公式计算得到的置信区间是近似的。近似的程度依赖于总体的分布和样本容量。
在绝大部分应用中，建立总体均值的区间估计时，样本容量 >=30已经足够。
如果总体分布不服从正态分布但是大致对称，则样本容量至少为15时才能得到置信区间的一个好的近似。

注意：在区间估计的表达式中，样本容量n出现在分母上。于是，实际应用中当某一样本容量产生的区间太宽时，可以考虑增大样本容量。由于n出现在分母上，增大样本容量可以使边际误差减小，使区间变窄，精度提高。

8.2 总体均值的区间估计：σ 未知情形

在建立总体均值的区间估计时，通常并没有关于总体标准差的一个好的估计。在这种情形下，必须利用同一样本估计 μ 和 σ 两个未知参数。

当利用 s 估计 σ 时，边际误差和总体均值的区间估计都以 t 分布的概率分布为依据进行的。

t 分布是由一类相似的概率分布组成的分布族，某个特定的 t 分布依赖于称为自由度的参数。当自由度分别为1、2、3、…时，有且仅有唯一的 t 分布与之对应。随着自由度的增大， t 分布与标准正态分布之间的差别变得越来越小。

给 t 加下标以表明其在 t 分布上侧的面积。如 ${t_{0.025}}$ 表示在 t 分布该值上侧的面积为0.025。一般的，用记号 ${t_{\alpha /2}}$ 表示在 t 分布中 ${t_{\alpha /2}}$ 上侧的面积为 ${\alpha /2}$ 。

8.2.1 边际误差和区间估计

总体均值的区间估计： σ 未知情形

$\overline x \pm {t_{\alpha /2}}\frac{s}{{\sqrt n }}$

式中，s为样本标准差；1-α为置信系数；自由度为n-1的 t 分布中， ${t_{\alpha /2}}$ 上侧的面积正好等于 ${\alpha /2}$ ；在式中，与 t 值对用的自由度为 n-1。
问：为什么自由度为 n-1 ?
答：因为对于所有的数据集，都有 ${\sum {\left( {{x_i} - \overline x } \right)} ^2} = 0$ ，因此， ${\left( {{x_i} - \overline x } \right)}$ 中只有 n-1 项是独立的，即如果我们知道了 n-1 个值，则可以确定余下的值。于是，与 ${\sum {\left( {{x_i} - \overline x } \right)} ^2}$ 所联系的自由度的个数为 n-1。

8.2.2 应用中的建议

如果总体服从正态分布，公式所给的置信区间是精确的，并且适用于任何样本容量。

如果总体不服从正态分布，则公式计算得到的置信区间是近似的。近似的程度依赖于总体的分布和样本容量。

在绝大部分应用中，建立总体均值的区间估计时，样本容量 >=30已经足够。
然而如果总体分布严重偏斜或者包含异常点，建议将样本容量增加到50或者更大。

8.2.3 区间估计方法小结

总体均值的区间估计方法【流程图】

注意：当 σ 已知时，对所有容量为 n 的样本边际误差是相同的，为 ${2_{\alpha /2}}\left( {\sigma /\sqrt n } \right)$ 。
当 σ 未知时，边际误差 ${t_{\alpha /2}}\left( {s/\sqrt n } \right)$ 随着样本的变化而变化，这是由于样本标准差 s 依赖于抽取的样本。s 越大边际误差越大，s 越小边际误差越小。

8.3 样本容量的确定

总体均值区间估计的样本容量：

$\frac{{{{\left( {{z_{\alpha /2}}} \right)}^2}{\sigma ^2}}}{{{E^2}}}$

E值是使用者可接受的边际误差， ${{z_{\alpha /2}}}$ 可由区间估计中所用到的置信水平确定。σ 要求是已知的。

8.4 总体比率

总体比率 p 的区间估计的一般形式： $\overline p \pm$ 边际误差。

第七章已证明，当 $\geqslant 5$ 且 $n\left( {1 - p} \right) \geqslant 5$ 时， $\overline p$ 的抽样分布近似服从正态分布。

$\overline p$ 的抽样分布的均值是总体比率 p ， $\overline p$ 的标准差是： ${\sigma _{\overline p }} = \sqrt {\frac{{p\left( {1 - p} \right)}}{n}}$

总体比率的区间估计：

$\overline p \pm {z_{\alpha /2}}\sqrt {\frac{{\overline p \left( {1 - \overline p } \right)}}{n}}$

式中，1-α 为置信系数， ${z_{\alpha /2}}$ 表示标准正态概率分布上侧面积为 ${{\alpha /2}}$ 时的Z值。

样本容量的确定：

$\frac{{{{\left( {{z_{\alpha /2}}} \right)}^2}\overline p \left( {1 - \overline p } \right)}}{{{E^2}}}$

E值是使用者可接受的边际误差， ${{z_{\alpha /2}}}$ 可由区间估计中所用到的置信水平确定。

由于抽样前 $\overline p$ 是未知的，因此上式并不能用于计算达到预期的边际误差所需要的样本容量。于是需要一个 $\overline p$ 的计划值 ${p^*}$ 。
则总体比率区间估计的样本容量为：

$\frac{{{{\left( {{z_{\alpha /2}}} \right)}^2}{p^*}\left( {1 - {p^*}} \right)}}{{{E^2}}}$ 。

实践中，可选择如下方法确定计划值 ${p^*}$ ：
1、用以前相同或类似样本的样本比率来代替；
2、利用实验性的研究，选取一个初始样本，以该样本的样本比率作为计划值 ${p^*}$ ；
3、使用判断或者最有猜测作为 ${p^*}$ 值；
4、如果上述方法均不适用，则取计划值 ${p^* =0.5}$ .

三千炎焱

关注

0
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
《商务与经济统计》笔记第八章

《商务与经济统计》笔记第八章区间估计8.1 总体均值的区间估计：σ 已知情形8.1.1 边际误差和区间估计8.1.2 应用中的建议8.2 总体均值的区间估计：σ 未知情形8.2.1 边际误差和区间估计8.2.2 应用中的建议8.2.3 区间估计方法小结8.3 样本容量的确定8.4 总体比率区间估计我们发现点估计量是用于估计总体参数的样本统计量。因为我们不可能期望点估计量能给出总体参数的精确值，所以经常在点估计上加减一个被称为边际误差的值来计算区间估计。区间估计的一般形式：点估计 +/- 边际误差在计
复制链接

扫一扫