总体比例与样本比例
假设一个情境:曼帝糖果公司再一次进行了抽样,以便利用调查结果预测:总体中有多大比例的人“可能偏爱曼帝公司的糖球”。
结果发现,在40个人中有32个人偏爱他们的口香糖球,其余8个人则偏爱竞争对手的口香糖球。
首席执行官感兴趣的是,是否人人都偏爱曼帝糖果的产品。那么可以将偏爱曼帝糖果的每一个人作为一个“成功”事件。那么我们如何利用样本数据预测总体的“成功”比例?
预测总体比例
如果我们用 X 表示总体的成功事件数量,则 X 符合二项分布,参数为n和p。n为总体中的人数,p 为成功事件的比例。
就像总体均值的最接近估计是样本均值一样,总体成功比例的最接近猜测肯定是样本成功比例。即,如果我们求出样本中偏爱曼帝糖果的人的比例,就能十分近似地估计出总体人群中偏爱曼帝糖果的人的比例。
用偏爱曼帝糖果的总人数除以样本总人数,就能得出样本的成功比例:如果用 p s p_s ps代表样本的成功比例,则可以下式估计总体的成功比例:
其中,
p
s
=
成
功
数
目
样
本
数
目
p_s = \frac{成功数目}{样本数目}
ps=样本数目成功数目
也就是说,我们将样本成功比例作为总体成功比例的点估计量,在曼帝糖果的最新抽样中,40 个人中有 32 个人偏爱曼帝糖果产品,因此
P
s
P_s
Ps=0.8。于是,总体成功比例的点估计量也是 0.8。
概率和比例互有关系
其实,概率和比例有很密切的关系。
假设你有一个总体,需要求其成功比例。为此,你可用成功的数目除以总体大小。
现在,假设你想计算从总体中随机选取一个成功事件的概率。为此,你可用总体的成功数目除以总体大小。可以看出,你计算成功概率的方法和计算成功比例的方法完全一样。
我们用字母 p 代表总体的成功概率,我们也能方便地用 p 代表比例一二者数值相同。
p
=
p
r
o
b
a
b
i
l
i
t
y
(
概
率
)
=
p
r
o
p
o
r
t
i
o
n
(
比
例
)
p = probability(概率) = proportion(比例)
p=probability(概率)=proportion(比例)
例题:
根据总体预测样本比例
假设一个情境:电影院出售混合型盒装糖球。每一盒装有100粒糖球;糖球总体中有25%是红色的。求一大盒特定糖球中有40颗或40颗以上红色糖球的概率,也就是求红色糖球占40%的概率。
这次我们已知总体参数,需要为某一盒特定糖球计算概率,也就是求样本比例的概率。为了求出样本比例的概率分布,下面是具体做法:
- 查看与我们的特定样本大小相同的所有样本。
如果我们有一个大小为 n 的样本,就需要考虑所有大小为 n 的可能样本。在本例中,盒子里的糖球数量为 100,因此 n 为 100。
- 观察所有样本比例形成的分布,然后求出比例的期望和方差。
每一个样本都有自己的情况,因此每个包装盒里的红色糖球的比例都有可能发生变化。
- 得出上述比例的分布后,利用该分布求出概率。
得知一个样本中的“成功比例”的分布后,就能够利用这个分布求出一个随机样本的比例概率一这里的随机样本是一大盒糖球。
具体做法:先看糖球总体。已知总体中的红色糖球的比例,用p表示,即p=0.25。
每一大盒糖球其实就是从糖盒总体中取出的一个样本。每一大盒装有100颗糖球,因此样本大小为100,让我们用n表示这个大小。
如果用随机变量X代表样本中的红色糖球的数目,则X~B(n,p),其中n=100,p=0.25。样本中的红色糖球的比例取决于X — 样本中的红色糖球的数目,即比例本身是一个随机变量,可以将此记为 P s P_s Ps,且 P s = X / n P_s = X/n Ps=X/n。
可以取出的大小为 n 的可能样本为数众多。每一个可能样本会包含 n 颗糖球,每一盒样本中的红色糖球的数量会符合相同的分布 — 对于每一个样本,红色糖球的数量符合B(n,p),成功比例则为X/n。
利用所有可能的样本,我们能得出所有样本比例的分布,该分布称作“比例的抽样分布”,或者称作“ P s P_s Ps的分布”。
利用比例的抽样分布,能够求出某一个随机选择的、大小为 n 的样本的“成功比例”的概率。
也就是说,我们能够利用比例的抽样分布求出“某一大盒糖球中的红色糖球比例至少为 40%”的概率。不过,在此之前,我们需要知道上述分布的期望和方差。
P s P_s Ps的期望
出于直觉,我们会期望样本中的红色糖球的比例与总体中的红色糖球的比例保持一致。如果糖球总体中包含25%的红色糖球,那么,可以期望样本中也包含25%的红色糖球。
那么具体计算呢?我们想求
E
(
P
s
)
E(P_s)
E(Ps),其中
P
s
=
X
/
n
P_s=X/n
Ps=X/n。也就是说,我们想求出所期望的样本比例数值,这里的样本比例等于红色糖球的数量除以样本糖球的总数量,即:
E
(
P
s
)
=
E
(
X
n
)
=
E
(
X
)
n
E(P_s) = E(\frac{X}{n}) = \frac{E(X)}{n}
E(Ps)=E(nX)=nE(X)
上式中的X为样本中红色糖球的数目,如果我们把红色糖球数目视为“成功数目”,则X~B(n,p)。X为二项分布,期望为np。则:
E
(
P
s
)
=
E
(
X
n
)
=
E
(
X
)
n
=
n
p
n
=
p
E(P_s) = E(\frac{X}{n}) = \frac{E(X)}{n} = \frac{np}{n} = p
E(Ps)=E(nX)=nE(X)=nnp=p
这个结果正好符合直觉。我们可以期望样本的成功比例与总体的成功比例相一致。
P s P_s Ps的方差
与求期望的方法相似,
V
a
r
(
P
s
)
=
V
a
r
(
X
n
)
=
V
a
r
(
X
)
n
2
Var(P_s) = Var(\frac{X}{n}) = \frac{Var(X)}{n^2}
Var(Ps)=Var(nX)=n2Var(X)
提示: V a r ( a x ) = a 2 v a r ( x ) Var(ax) = a^2var(x) Var(ax)=a2var(x)
由于X为二项分布,方差为npq,则:
V
a
r
(
P
s
)
=
V
a
r
(
X
n
)
=
V
a
r
(
X
)
n
2
=
n
p
q
n
2
=
p
q
n
Var(P_s) = Var(\frac{X}{n}) = \frac{Var(X)}{n^2} = \frac{npq}{n^2} = \frac{pq}{n}
Var(Ps)=Var(nX)=n2Var(X)=n2npq=npq
取方差的平方根,可得
P
s
P_s
Ps的标准差,它指出样本比例与p的可能差距,有时候我们将它称为“比例标准误差”,因为它能指出样本比例的可能误差。
比
例
标
准
误
差
=
p
q
n
比例标准误差 = \sqrt{\frac{pq}{n}}
比例标准误差=npq
n越大,比例标准误差越小。也就是说,样本中包含的对象越多,用样本比例作为p的估计量就越可靠。(我理解为样本中含红色糖球的概率为0.25的可能性越大,越接近0.25,n太小了可能就有意外情况多一些,比如2颗中有1颗红色糖球)
求解 P s P_s Ps的分布
我们求出了 P s P_s Ps的期望和方差,为了求出想要的概率,还需要知道它的分布,而 P s P_s Ps的分布又取决于样本的大小。下面是一张 P s P_s Ps的分布图,其中n很大。
P s P_s Ps符合正态分布
当n很大时,
P
s
P_s
Ps的分布接近正态分布。所谓“很大”是指大于30。n越大,
P
s
P_s
Ps的分布越接近正态分布。也就是说,当n很大的时候:
P
s
∼
N
(
p
,
p
q
n
)
P_s \sim N(p,\frac{pq}{n})
Ps∼N(p,npq)
之后我们就可以用正态分布的求法求出“某一大盒糖盒中的红色糖球比例至少为40%”的概率了。
P s P_s Ps需要进行连续性修正
每个样本的“成功数目”都是离散的。由于使用“成功数目”计算比例,因此在用正态分布计算概率时,要进行连续性修正。
我们前面讲过,如果用 X 表示样本中的成功数目,则 P s = X / n P_s=X/n Ps=X/n; X 的正态连续性修正为±(1/2)。
如果我们用以上数值替代公式
P
s
=
X
/
n
P_s=X/n
Ps=X/n中的X,那么
P
s
P_s
Ps的连续性修正为:
连
续
性
修
正
=
±
(
1
/
2
)
n
=
±
1
2
n
连续性修正 = \frac{\pm (1/2)}{n} = \frac{\pm 1}{2n}
连续性修正=n±(1/2)=2n±1
即,如果用正态分布近似计算P的概率,一定要用±1/2n进行连续性修正;连续性修正的确切数值取决于数值。(我的理解:实际上是这样
P
s
=
X
±
(
1
/
2
)
n
=
X
n
±
(
1
/
2
)
n
P_s = \frac{X \pm (1/2)}{n} = \frac{X}{n} \pm \frac{(1/2)}{n}
Ps=nX±(1/2)=nX±n(1/2),加号或者减号根据实际情况)
小知识:当n很大,连续性修正变得很小,对整个概率带来的变化很小,有时候可以忽略。
让我们看一道例题,看概念感觉迷迷糊糊的。
我们再看一遍总结: