样本均值的概率
假设一个情境:曼帝糖果公司也生产小袋装糖球,每一个小包装袋里的糖球数目均值为10,方差为1。然而,有一个顾客买了30袋糖球,结果发现每袋糖球中的糖球平均数目只有8.5。求这种事情发生概率有多大?
这次我们已知小包装糖球的总体均值和方差,然后抽取了几袋糖球作为样本,需要为该样本计算概率(样本均值的概率)。
为了计算样本均值的概率,先要得出样本均值的概率分布。下面是具体步骤:
- 查看与我们所研究的样本大小相同的所有可能样本。
如果我们手头的样本大小为 n,则需要考虑大小为的所有可能样本。小包装糖球有 30 袋,因此这里的 n 为 30。
- 查看所有样本形成的分布,求出样本均值的期里和方差。
每一个样本都各有特点,每个包装袋中的糖球数目有变化。
- 得知样本均值的分布后,用该分布求出概率。
只要知道所有可能样本的均值的分布情况,就能利用该分布求出一个随机样本的均值的概率,在本例中,随机样本即小包装糖球。
1 已知样本大小为30。
2 然后我们求样本均值的分布。
已知袋装糖球的总体 的均值和方差,用 μ \mu μ和 σ 2 \sigma^2 σ2表示,一个包装袋中的糖球数量可以用X表示。
随机选择的每一袋糖球都是X的一个独立观察结果,因此,每一袋糖球都符合相同的分布。即,如果用 X i X_i Xi代表随机选择的一袋糖球中的糖球数量,则每个 X i X_i Xi的期望都是 μ \mu μ,方差都是 σ 2 \sigma^2 σ2。
现在,取n包糖球作为样本,标记从 X 1 X_1 X1到 X n X_n Xn的包装袋中的糖球数量,每个 X i X_i Xi都是X的一个独立观察结果,于是它们遵守相同的分布:每个 X i X_i Xi的期望都是 μ \mu μ,方差都是 σ 2 \sigma^2 σ2。
用 X ‾ \overline{X} X表示这n袋糖球的容量均值, X ‾ \overline{X} X的数值取决于n袋糖球中的每一袋糖球的容量,计算时,要将所有糖球的数量加起来,再除以n。
可以取出的大小为n的可能样本为数众多。每一个可能样本都包含n袋糖球,即每一个样本都包含X的n个独立观察结果;每一个随机选择的包装中的糖球数量都遵守相同的正态分布;我们以相同的方法计算每一个样本的糖球数量均值。
我们可以利用从所有可能样本得出的所有样本均值形成一个分布,叫做“均值的抽样分布”,或叫做 X ‾ \overline{X} X的分布。
它的作用?它为我们提供了一种计算样本均值的概率的方法。
为了计算任何一个变量的概率,先要知道这个变量的概率分布,所以,若要计算样本均值的概率,就要知道样本均值的分布。我们的例子是这样的:在一个有30袋糖球的样本中,求糖球数目的均值小于或等于8.5的概率。
和比例的抽样分布一样,为了能够动手计算概率,先要知道分布的期望和方差。
求 X ‾ \overline{X} X的期望: E ( X ‾ ) E(\overline{X}) E(X)
这里的
X
‾
\overline{X}
X是样本中的每一袋糖球的容量均值,即:
X
‾
=
X
1
+
X
2
+
.
.
.
+
X
n
n
\overline{X} = \frac{X_1+X_2+...+X_n}{n}
X=nX1+X2+...+Xn
其中
X
i
X_i
Xi代表第i袋糖球的容量,我们可以利用它求出
E
(
X
‾
)
E(\overline{X})
E(X)。
E
(
X
‾
)
=
E
(
X
1
+
X
2
+
.
.
.
+
X
n
n
)
=
E
(
1
n
X
1
+
1
n
X
2
+
.
.
.
+
1
n
X
n
)
=
E
(
1
n
X
1
)
+
E
(
1
n
X
2
)
+
.
.
.
+
E
(
1
n
X
n
)
∵
E
(
X
+
Y
)
=
E
(
X
)
+
E
(
Y
)
=
1
n
(
E
(
X
1
)
+
E
(
X
2
)
+
.
.
.
+
E
(
X
n
)
)
∵
E
(
a
X
)
=
a
E
(
X
)
=
1
n
(
μ
+
μ
+
.
.
.
+
μ
)
=
1
n
(
n
μ
)
=
μ
E(\overline{X}) = E(\frac{X_1+X_2+...+X_n}{n}) \\ = E(\frac{1}{n}X_1 + \frac{1}{n}X_2 + ... + \frac{1}{n}X_n) \\ = E(\frac{1}{n}X_1) + E(\frac{1}{n}X_2) + ... + E(\frac{1}{n}X_n) \because E(X+Y)=E(X)+E(Y) \\ = \frac{1}{n}(E(X_1) + E(X_2) + ... + E(X_n)) \because E(aX) = aE(X) \\ = \frac{1}{n}(\mu + \mu + ... + \mu) \\ = \frac{1}{n} (n\mu) \\ = \mu
E(X)=E(nX1+X2+...+Xn)=E(n1X1+n1X2+...+n1Xn)=E(n1X1)+E(n1X2)+...+E(n1Xn)∵E(X+Y)=E(X)+E(Y)=n1(E(X1)+E(X2)+...+E(Xn))∵E(aX)=aE(X)=n1(μ+μ+...+μ)=n1(nμ)=μ
也就是所有大小为n的可能样本的均值的平均数等于作为样本来源的总体的均值——实际上,你所求的是所有可能均值的均值。
其实这十分符合直觉——总的看来,你会期望一个样本的每袋糖球平均容量等于总体的每袋糖球平均容量。在我们的具体例子中,总体的每袋糖球平均容量为10,因此,我们会期望样本也是如此。
求 X ‾ \overline{X} X的方差: V a r ( X ‾ ) Var(\overline{X}) Var(X)
提示:X与 X ‾ \overline{X} X的区别
X代表一个包装袋中的糖球数量,我们已知一个包装袋中的糖球数目均值,且已知方差。
X ‾ \overline{X} X代表一个样本的糖球容量均值,因此 X ‾ \overline{X} X的分布代表所有可能样本的均值的分布。 E ( X ‾ ) E(\overline{X}) E(X)表示所有样本均值的均值,而 V a r ( X ‾ ) Var(\overline{X}) Var(X)指的是样本均值的变异情况。
求
V
a
r
(
X
‾
)
Var(\overline{X})
Var(X)与求
E
(
X
‾
)
E(\overline{X})
E(X)类似。
V
a
r
(
X
‾
)
=
V
a
r
(
X
1
+
X
2
+
.
.
.
+
X
n
n
)
=
V
a
r
(
1
n
X
1
+
1
n
X
2
+
.
.
.
+
1
n
X
n
)
=
V
a
r
(
1
n
X
1
)
+
V
a
r
(
1
n
X
2
)
+
.
.
.
+
V
a
r
(
1
n
X
n
)
=
1
n
2
(
V
a
r
(
X
1
)
+
V
a
r
(
X
2
)
+
.
.
.
+
V
a
r
(
X
n
)
)
=
1
n
2
(
σ
2
+
σ
2
+
.
.
.
+
σ
2
)
=
1
n
2
(
n
σ
2
)
=
σ
2
n
Var(\overline{X}) = Var(\frac{X_1+X_2+...+X_n}{n}) \\ = Var(\frac{1}{n}X_1 + \frac{1}{n}X_2 + ... + \frac{1}{n}X_n) \\ = Var(\frac{1}{n}X_1) + Var(\frac{1}{n}X_2) + ... + Var(\frac{1}{n}X_n) \\ = \frac{1}{n^2} (Var(X_1) + Var(X_2) + ... + Var(X_n)) \\ = \frac{1}{n^2} (\sigma^2 + \sigma^2 + ... + \sigma^2) \\ = \frac{1}{n^2} (n \sigma^2) \\ = \frac{\sigma^2}{n}
Var(X)=Var(nX1+X2+...+Xn)=Var(n1X1+n1X2+...+n1Xn)=Var(n1X1)+Var(n1X2)+...+Var(n1Xn)=n21(Var(X1)+Var(X2)+...+Var(Xn))=n21(σ2+σ2+...+σ2)=n21(nσ2)=nσ2
均值标准误差
让我们看看均值的抽样分布。
先看总体X的分布,X的均值为 μ \mu μ,方差为 σ 2 \sigma^2 σ2,因此 E ( X ) = μ E(X)=\mu E(X)=μ而 V a r ( X ) = σ 2 Var(X) = \sigma^2 Var(X)=σ2。
接着用来自总体X的所有大小为n的可能样本,形成所有样本均值的分布——
X
‾
\overline{X}
X的分布。这个分布的均值和方差计算如下:
E
(
X
‾
)
=
μ
V
a
r
(
X
‾
)
=
σ
2
n
E(\overline{X}) = \mu \\ Var(\overline{X}) = \frac{\sigma^2}{n}
E(X)=μVar(X)=nσ2
X
‾
\overline{X}
X的标准差即方差的平方根,这个标准差可指出样本均值与
μ
\mu
μ的可能偏离距离,因此被称为均值标准误差。
均
值
标
准
误
差
=
σ
n
均值标准误差 = \frac{\sigma}{\sqrt{n}}
均值标准误差=nσ
n越大,均值标准误差越小。也就是说,样本中的个体越多,作为总体均值的估计量的样本均值越可靠。
3 求 X ‾ \overline{X} X的分布
- 当X为正态分布时, X ‾ \overline{X} X也符合正态分布。下面是各种 μ \mu μ、 σ 2 \sigma^2 σ2及n所对应的分布图,其中X符合正态分布。
可以看到各种情况下 X ‾ \overline{X} X均符合正态分布,也就是说:
如果 X ∼ N ( μ , σ 2 ) X \sim N(\mu, \sigma^2) X∼N(μ,σ2),则 X ‾ ∼ N ( μ , σ 2 / n ) \overline{X} \sim N(\mu, \sigma^2/n) X∼N(μ,σ2/n)
- 但是,X可能不符合正态分布。
但是但是,当n很大时, X ‾ \overline{X} X仍然可以用正态分布近似
随着n增大, X ‾ \overline{X} X越来越接近正态分布。我们已经知道,当X符合正态分布时, X ‾ \overline{X} X符合正态分布;如果X不符合正态分布,但如果n足够大,我们仍然可以用正态分布近似的分布。
现在的情况是,我们知道总体的均值和方差,但却不知道总体的分布。不过,这没关系,由于样本大小为30,我们还是能用正态分布求 X ‾ \overline{X} X的概率。这叫做“中心极限定理”。
中心极限定理
中心极限定理是指:如果从一个非正态总体X中取出一个样本,且样本很大,则
X
‾
\overline{X}
X的分布近似为正态分布。如果总体的均值和方差为
μ
\mu
μ和
σ
2
\sigma^2
σ2,且n很大,例如大于30,则:
X
‾
∼
N
(
μ
,
σ
2
/
n
)
\overline{X} \sim N(\mu, \sigma^2/n)
X∼N(μ,σ2/n)
这和X符合正态分布时的情况是一样的。唯一的差别是,当X符合正态分布时,样本的大小无所谓。
根据中心极限定理,如果X的样本很大,则 X ‾ \overline{X} X的分布近似为正态分布。
使用中心极限定理
二项分布
假设你有一个总体,用 X ∼ B ( n , p ) X \sim B(n, p) X∼B(n,p)表示,其中n大于30。如前所述, μ = n p , σ 2 = n p q \mu = np, \sigma^2=npq μ=np,σ2=npq,得到:
(对于二项分布,总体均值为np,方差为npq。如果将这些式子代入抽样分布,则得到
X
‾
∼
N
(
n
p
,
p
q
)
\overline{X} \sim N(np, pq)
X∼N(np,pq)。)
X
‾
∼
N
(
n
p
,
p
q
)
\overline{X} \sim N(np, pq)
X∼N(np,pq)
泊松分布
现在,假设总体符合泊松分布 X ∼ P o ( λ ) X \sim Po(\lambda) X∼Po(λ),n还是大于30。对于泊松分布来说, μ = σ 2 = λ \mu = \sigma^2 = \lambda μ=σ2=λ。
和以前一样,我们可以借助正态分布求出
σ
2
\sigma^2
σ2的概率,如果将以上总体参数代入
X
‾
∼
N
(
μ
,
σ
2
/
n
)
\overline{X} \sim N(\mu, \sigma^2/n)
X∼N(μ,σ2/n),得到:
X
‾
∼
N
(
λ
,
λ
/
n
)
\overline{X} \sim N(\lambda, \lambda/n)
X∼N(λ,λ/n)
一般情况下,会使用分布
X
‾
∼
N
(
μ
,
σ
2
/
n
)
\overline{X} \sim N(\mu, \sigma^2/n)
X∼N(μ,σ2/n),并代入
μ
\mu
μ和
σ
2
\sigma^2
σ2的数值。
之后,就可以求出概率了,由于 X ‾ \overline{X} X符合正态分布(X不符合),于是可以用标准正态概率表查找概率,也就是说,其他正态分布的算法完全适用于你的情况。
介绍完中心极限定理,回到主题,案例答案。
问:中心极限定理要求进行任何连续性修正吗?
答:不用。你使用中心极限定理求出的概率与样本均值有关,而与样本中的数值无关。因此不需要进行任何连续性修正。
问:点估计量和抽样分布之间有关系吗?
答:有关系。让我们先看均值。总体均值的点估计量为 X ‾ \overline{X} X( X ‾ \overline{X} X为样本均值),即 μ ^ = X ‾ \hat{\mu} = \overline{X} μ^=X。那么均值的抽样分布的期望为 E ( X ‾ ) = μ E(\overline{X}) = \mu E(X)=μ。全部样本均值的期望等于 μ \mu μ,我们可以用样本均值估计 μ \mu μ。
与此相似,总体比例的点估计量为 P s P_s Ps,即样本比例,也就是说 p = P s p = P_s p=Ps。如果我们取全部样本比例的期望,可得到 E ( P s ) = p E(P_s) = p E(Ps)=p。全部样本比例的期望等于p,于是我们可以用样本比例估计p。(书上没有证明,只是类比)
对于方差,我们就不打算在这里进行证明了,但结果相似,即:
σ 2 = s 2 , E ( S 2 ) = σ 2 \sigma^2 = s^2, E(S^2) = \sigma^2 σ2=s2,E(S2)=σ2
问:这是巧合吗?
答:这并非巧合,估计量是这样选择的:以同样方法抽取大小为n的大量样本,使得这些样本的期望等于总体参数的真值。如果做到了这一点,我们就说这些估计量是无偏估计量。
无偏估计量有可能准确无误,这是因为,从所有可能样本的平均情况上来看,可以期望该估计量等于真实的总体参数。
(我的理解:无偏样本相当于大小为n的可能样本的其中之一,之后它得到的期望和反差都能表示总体均值和方差,至于无偏样本方差的分母为n-1,样本均值方差的分母为n,n-1只是一个更方便估计总体的trick小技巧)
问:标准误差与此有何关系?
答:总体参数的最佳无偏估计量通常为方差最小的估计量,即标准误差最小的估计量。
总结