置信区间的构建
引言
上一章帮助我们利用样本估计总体均值、方差或一定比例的精确值。但是你认为的样本就一定准确(或者说无偏)吗?这一章,另一种估计总体统计量的方法——置信区间,有其作用。
曼帝糖果公司用一个包含100粒糖球的样本得出口味持续时间均值的点估计量为62.7分钟,同时总体方差的点估计量为25分钟。这是根据手头证据有可能得出的最可靠的口味持续时间估计,可要是略有差池,那该怎么办?
我们确实取用了最具代表性的数据样本,以此估计总体的主要统计量,如均值、方差、比例,这意味着超长效口香糖球的口味持续时间均值的点估计量是我们有可能给出的最佳估计。
但是有这样2个问题:
- 我们依赖来自唯一的一个样本的结果得出非常精确的估计。我们尽力让它无偏了,使它具有代表性。但是它是不是能100%代表总体,我们没有绝对的把握,原因很简单——我们用的是样本。
- 如果我们所用的样本无偏,则这个估计量很可能接近总体的真值。问题是,多接近才算“够接近”?
因此,与其给出一个精确值作为总体均值的估计值,不如采用另一种方法。我们可以指定某个区间——而不是用一个十分精确的时间长度,作为糖球口味持续时间的估计。例如,我们可以说:我们期望糖球的口味持续时间为55至65分钟,这仍然会让听者觉得糖球口味持续时间接近1小时,但却留有更大的误差空间。确定空间的宽度取决于自己对结果有多大自信了。
置信区间
认识置信区间
此前,我们以样本数据为基础,利用点估计量估计了糖球口味持续时间的均值,通过点估计量,我们能够给出糖球口味平均持续时间的非常精确的估计。下面这张图体现了糖球样本口味持续时间的分布。
那么,如果我们为总体均值指定一个区间,情况会怎么样呢?我们不指定一个确切的数值,而指定两个数值—我们期望糖球口味持续时间介于这两个数值之间。我们让均值的点估计量处于这个区间的中央,并将这个区间的上下限设定为这个点估计量加上或减去某个误差。
选择区间上下限是为了让“总体均值介于a和b之间”这一结果具有特定概率。例如,你可能希望通过选择a和b,使得该区间中包含总体均值的几率为95%。也就是说,所选择的a和b使得:
P
(
a
<
μ
<
b
)
=
0.95
P(a < \mu < b) = 0.95
P(a<μ<b)=0.95
我们用(a,b)表示这个区间,由于a和b的确切数值取决于你希望自己对于“该区间包含总体均值”这一结果具有的可信程度,因此,(a,b)被称为置信区间。
那么,我们如何求总体均值的置信区间?
求解置信区间四步骤
- 选择总体统计量(是指希望用于构建置信区间的总体统计量)
- 求出其抽样分布(上一章讲过抽样分布)
- 决定置信水平(你选择的区间中包含该统计量的概率)
- 求出置信上下限(为了求出置信上下限,我们需要知道置信水平和抽样分布)
第1步:选择总体统计量
第1步是选取要为之构建置信区间的统计量,这取决于要解决的实际问题。
在我们的实例中,需要为口香糖球口味持续时间的均值构建一个置信区间,于是就需要为总体均值 μ \mu μ构建一个置信区间。
第2步:求出所选统计量的抽样分布
为了求出总体均值的抽样分布,我们需要知道均值的抽样分布,即需要知道 X ‾ \overline{X} X的期望和方差以及其分布。(相当于“上一章样本均值的概率”反过来,这次我们已知的是样本均值的概率,要求的是总体均值和方差)
让我们先求期望和方差。回顾上一章的内容,我们知道均值的抽样分布(概念:利用从所有可能样本得出的所有样本均值形成一个分布)的期望和方差为:
E
(
X
‾
)
=
μ
V
a
r
(
X
‾
)
=
σ
2
n
E(\overline{X}) = \mu \\ Var(\overline{X}) = \frac{\sigma^2}{n}
E(X)=μVar(X)=nσ2
为了利用以上结果求出
μ
\mu
μ的置信区间,我们代入总体方差的数值
σ
2
\sigma^2
σ2和样本大小的数值n。但是我们不代入
μ
\mu
μ的数值,因为这是因为我们正在为这个数值求置信区间。(
μ
\mu
μ为总体均值,我们在为它求置信区间)
原因(可能后面才能看懂):我们正在利用抽样分布求 μ \mu μ的置信区间,因此,除了 μ \mu μ以外,我们代入所有数值。代入 σ 2 \sigma^2 σ2和n之后,就能用 X ‾ \overline{X} X的分布求出置信区间,我们很快就会进行说明。
但有一个问题——我们并不知道 σ 2 \sigma^2 σ2的真值,必须根据样本进行估计。怎么办?
->利用点估计量
尽管我们不知道总体方差 σ 2 \sigma^2 σ2的真实值,却可以用它的点估计量进行估计。于是我们代入 σ ^ 2 \hat{\sigma}^2 σ^2(总体方差的点估计量,概念见上一章),或者叫做 s 2 s^2 s2,而不是 σ 2 \sigma^2 σ2。(意思是用 σ ^ 2 \hat{\sigma}^2 σ^2大致凑合一下当 σ 2 \sigma^2 σ2)
于是均值的抽样分布的均值和方差等于:
E
(
X
‾
)
=
μ
V
a
r
(
X
‾
)
=
s
2
n
E(\overline{X}) = \mu \\ Var(\overline{X}) = \frac{s^2}{n}
E(X)=μVar(X)=ns2
(再重申一遍:
s
2
s^2
s2是方差的点估计量。我们不知道总体方差的真实值是多少,于是用样本方差进行估计。)
曼帝糖果公司用包含100颗糖球的样本计算估计值,并算得
s
2
=
25
s^2=25
s2=25,于是:
V
a
r
(
X
‾
)
=
s
2
n
=
25
/
100
=
0.25
Var(\overline{X})=\frac{s^2}{n} = 25/100 = 0.25
Var(X)=ns2=25/100=0.25
除此之外,我们还需要清楚地知道
X
‾
\overline{X}
X的分布。
第3步:决定置信水平
置信水平表明你希望自己对于“置信区间包含总体统计量”这一说法有多大把握。例如,假设我们希望总体均值的置信水平为95%,这表示总体均值处于置信区间中的概率为0.95。
注意:置信水平越高,区间越宽,置信区间包含总体统计量的几率越大。
要选择一个合理宽度的置信水平,既能保证较大的概率,又能让区间足够窄。否则举个例子:我们可以说糖球口味持续时间的均值在0至3天之间,但你却无法据此知道糖球口味实际上能持续多久。
第4步:求出置信上下限
最后一步是求a和b—置信区间的上下限,上下限指出一个范围的左右边界—均值有95%的概率落入这个范围中。a和b的确切值取决于需要使用的抽样分布以及需要具有的置信水平。
对于我们的实例,需要让糖球口味持续时间均值具有95%的置信度,即, μ \mu μ位于我们求得的a和b之间的概率必须为0.95。我们还知道, X ‾ \overline{X} X符合正态分布,其中 X ‾ ~ N ( μ , 0.25 ) \overline{X}~N(\mu,0.25) X~N(μ,0.25)。
利用 X ‾ \overline{X} X的分布我们可以求出a和b的值。即,我们可以利用 X ‾ ∼ N ( μ , 0.25 ) \overline{X} \sim N(\mu, 0.25) X∼N(μ,0.25)求出a和b,例如 P ( X ‾ < a ) = 0.025 P(\overline{X}<a) = 0.025 P(X<a)=0.025和 P ( X ‾ > b ) = 0.025 P(\overline{X} > b) = 0.025 P(X>b)=0.025。
由于 X ‾ \overline{X} X符合正态分布,所以我们可以用正态分布求置信区间。方法与前面讲过的算法相似:算出标准分,查询标准正态分布概率表,得出所需要的结果。
1 求Z
对
X
‾
\overline{X}
X进行标准化。
Z
=
X
‾
−
μ
0.25
,
其中
Z
∼
N
(
0
,
1
)
Z = \frac{\overline{X}-\mu}{\sqrt{0.25}}, 其中Z\sim N(0,1)
Z=0.25X−μ,其中Z∼N(0,1)
下面是经过标准化的置信区间图形:
利用 P ( Z < z a ) = 0.025 P(Z < z_a) = 0.025 P(Z<za)=0.025和 P ( Z > z b ) = 0.0255 P(Z > z_b) = 0.0255 P(Z>zb)=0.0255可以求出 z a , z b z_a, z_b za,zb,它们是标准置信区间上下限。
2 用 μ \mu μ改写不等式
到此为止,我们得到
P
(
−
1.96
<
Z
<
1.96
)
=
0.95
P(-1.96<Z<1.96) = 0.95
P(−1.96<Z<1.96)=0.95,即:
P
(
−
1.96
<
X
‾
−
μ
0.5
<
1.96
)
=
0.95
P(-1.96 < \frac{\overline{X}-\mu}{0.5} < 1.96) = 0.95
P(−1.96<0.5X−μ<1.96)=0.95
用
μ
\mu
μ改写不等式,即可以得到
μ
\mu
μ的置信区间。
−
1.96
<
X
‾
−
μ
0.5
<
1.96
−
0.98
<
X
‾
−
μ
<
0.98
X
‾
−
0.98
<
μ
<
X
‾
+
0.98
-1.96 < \frac{\overline{X}-\mu}{0.5} < 1.96 \\ -0.98 < \overline{X}-\mu < 0.98 \\ \overline{X} - 0.98 < \mu < \overline{X} + 0.98
−1.96<0.5X−μ<1.96−0.98<X−μ<0.98X−0.98<μ<X+0.98
3 最后求
X
‾
\overline{X}
X的数值
写出不等式后,我们就非常接近描述糖球典型口味持续时间的数值——
μ
\mu
μ的置信区间。即,我们使用:
P
(
X
‾
−
0.98
<
μ
<
X
‾
+
0.98
)
=
0.95
P(\overline{X}-0.98 < \mu < \overline{X}+0.98) = 0.95
P(X−0.98<μ<X+0.98)=0.95
下面是草图:
那么只要求出 X ‾ \overline{X} X,就能得出置信上下限。
X ‾ \overline{X} X指的是样本均值的分布,于是我们可以采用来自曼帝糖果公司样本的 x ‾ \overline{x} x值(术语为:样本均值)。
提示:这里没有替代使用,具体原因见后面的“问2”。 V a r ( X ‾ ) = σ 2 n Var(\overline{X}) = \frac{\sigma^2}{n} Var(X)=nσ2中的 σ 2 \sigma^2 σ2是因为它是总体方差,利用总体方差点估计量 s 2 s^2 s2替代。
这样就求出了置信区间。在区间(61.72,63.68)中包含糖球口味持续时间总体均值的几率是95%。
使用置信区间取代点估计量,给出了对糖球口味持续时间的准确而精确的估计,却不必提到精确的数字——就算样本有误差也还有周旋余地。
步骤总结
让我们复习一下前面讲过的置信区间的构建步骤。
首先选择用于构建置信区间的总体统计量。我们需要求出糖球口味持续时间均值的置信区间,于是需要构建山的置信区间。
确定了用于构建置信区间的总体统计量后,接着求其抽样分布。我们求得均值的抽样分布的期望和方差,代入除M以外的各个统计量的数值,于是发现我们可以使用文的正态分布。
随后,我们确定了用于构建置信区间的置信水平——95%。
最后必须求出置信区间的置信上下限。我们利用置信水平和抽样分布得出了合适的置信区间。
构建置信区间会反复使用相同步骤,因此可以作一些简化,具体取决于所需要的置信水平和试验统计量的分布。具体如下,只需要查看要求的总体估计量、总体分布以及各种条件,然后代入总体统计量或其估计量,就行了。数值c取决于置信水平。
上面的例题应该是第3种情况。
例题(代式子即可)
问:之前求 X ‾ \overline{X} X的期望和方差的时候,为什么代入 σ 2 \sigma^2 σ2的点估计量,却不代入 μ \mu μ的点估计量?
答:由于我们需要求的正是 μ \mu μ的置信区间,因此不用 x ‾ \overline{x} x代替 μ \mu μ。我们需要求出含有 μ \mu μ的表达式,以便求出置信区间。
问:为什么用 x ‾ \overline{x} x作为 X ‾ \overline{X} X的值?
答: X ‾ \overline{X} X的分布即均值的抽样分布。它是这样来的:从总体中取出每一个大小为n的可能样本,然后用所有的样本均值形成一个抽样分布。
x ‾ \overline{x} x是来自样本的特定均值,于是我们借助它求出置信区间。
问:置信区间和置信水平有何区别?
答:置信水平是“统计量处于置信区间之中”的概率,通常是一个百分数,例如95%。置信区间则给出了区间本身——数字实际范围的上下限。
问:我们已经求得 μ \mu μ的95%置信区间为(61.72, 63.68),这究竟意味着什么?
答:这意味着:如果你打算抽取大小相同的多个样本,然后为所有这些样本构建置信区间,则这些置信区间中有95%会包含总体均值的真实值。你由此知道,用这种方法构建的置信区间在95%的情况下都将包含总体均值。
问:是否所有的置信区间都基于正态分布?
答:并非如此。我们随后会讲到基于其他分布的区间。
问:既然只要在简便算法中代入数值就行,为什么讲那么多步骤呢?
答:讲这些步骤是为了让你看清楚问题本质,理解置信区间的构建过程。大多数时候,你只要代入数值就行了。
问:使用置信区间时需要进行连续性修正吗?
答:理论上是要的,不过实践中常忽略不计,也就是说只要在简便算法中代入数值算出置信区间就行了。