二项分布
假设一个情境:你参加了一个问答节目,一共3道题,每道题有4个选项。但是你一点都不知道答案,那么求能答对题数的概率分布。
下面是3个问题的概率树:
如果X表示答对的题数,我们看看具体的概率:
答对0题和答对3题显然易见,只需要 0.7 5 3 0.75^3 0.753和 0.2 5 3 0.25^3 0.253。那么答对1题呢,答对的题目可以是题目1、题目2或题目3三种可能,因此答案是 0.7 5 2 ∗ 0.25 + 0.7 5 2 ∗ 0.25 + 0.7 5 2 ∗ 0.25 = 3 ∗ 0.7 5 2 ∗ 0.25 0.75^2*0.25+0.75^2*0.25+0.75^2*0.25= 3 * 0.75^2*0.25 0.752∗0.25+0.752∗0.25+0.752∗0.25=3∗0.752∗0.25。答对2题同理。
我们可以看到规律:
P
(
X
=
r
)
=
3
C
r
∗
0.2
5
r
∗
0.7
5
3
−
r
P(X=r) = ^3C_r * 0.25^r * 0.75^{3-r}
P(X=r)=3Cr∗0.25r∗0.753−r
组合
n
C
r
^nC_r
nCr即从n个对象中选取r个对象的选取方式数目(不需要知道确切的选取顺序)。现在我们需要的是从3个问题中选取r个选对的问题。
另一个情境:假设有5道题了呢?
我们可以思考n个问题的解法。很好理解,这个公式的意思是,在答对r题的情况下,n道题中选取r个题目用来答对,答对的概率是0.25,有r次,答错的概率是0.75,有n-r次。
P
(
X
=
r
)
=
n
C
r
∗
0.2
5
r
∗
0.7
5
n
−
r
P(X=r) = ^nC_r * 0.25^r * 0.75^{n-r}
P(X=r)=nCr∗0.25r∗0.75n−r
如果再次归纳,就可以得到。
设想每道题的答对概率是p,答错的概率是q=1-p。答对n个问题中的r个问题的概率为:
P
(
X
=
r
)
=
n
C
r
∗
p
r
∗
q
n
−
r
P(X=r) = ^nC_r * p^r * q^{n-r}
P(X=r)=nCr∗pr∗qn−r
这类问题称为二项分布。
二项分布的条件
- 你正在进行一系列独立试验。
- 每一次试验都存在失败和成功的可能,每一次试验的成功概率相同。
- 试验次数有限。
第1条和第2条的条件和几何分布的条件相同。差别在于二项分布感兴趣的事获得成功的次数。
让我们用X表示“n次试验中的成功次数”,为了求出取得r次成功的概率,可用下列算式:
P
(
X
=
r
)
=
n
C
r
∗
p
r
∗
q
n
−
r
,
其
中
n
C
r
=
n
!
r
!
(
n
−
r
)
!
P(X=r)=^nC_r*p^r*q^{n-r}, 其中^nC_r = \frac{n!}{r!(n-r)!}
P(X=r)=nCr∗pr∗qn−r,其中nCr=r!(n−r)!n!
p是每一次试验的成功概率,n是试验次数。写作:
X
∼
B
(
n
,
p
)
X \sim B(n,p)
X∼B(n,p)
根据n与p的不同数值,二项分布的形状会发生变化,p越接近0.5,图形越对称。一般情况下,当p小于0.5时,图形向右偏斜;当p大于0.5时,图形向左偏斜。
二项分布的期望和方差
前面我们使用二项分布计算基本概率,由此我们可以算出答对一定数目的问题的概率。但是,如果答案是随机选择的,那么我们到底能期望自己答对几个问题呢?算出期望可以帮助你做出更正确的选择,以便决定是否参加下一轮问题的回答。
让我们看看能否求出期望和方差的常规表达式。我们先算单次试验的期望和方差,然后看看是否能推广至n次独立的试验。
先看单次试验
假定我们只试验一次。每一次试验或是成功,或是失败,因此,在单次试验时,有可能取得0次或1次成功,如果X~B(1, p),则成功1次的概率为p,成功0次的概率为q。
X的概率分布:
x | 0 | 1 |
---|---|---|
P(X=x) | q | p |
求出期望和方差:
E
(
X
)
=
0
q
+
1
p
=
p
V
a
r
(
X
)
=
E
(
X
2
)
−
E
2
(
X
)
=
(
0
q
+
1
p
)
−
p
2
=
p
−
p
2
=
p
q
E(X) = 0q + 1p = p \\ \\ Var(X) = E(X^2) - E^2(X) \\ = (0q+1p) - p^2 \\ = p - p^2 \\ = pq
E(X)=0q+1p=pVar(X)=E(X2)−E2(X)=(0q+1p)−p2=p−p2=pq
再看n次试验
因为每个
X
i
X_i
Xi是一次单独的试验(可以理解为1次“答题”),
E
(
X
i
)
=
p
,
V
a
r
(
X
i
)
=
p
q
E(X_i) = p, Var(X_i)=pq
E(Xi)=p,Var(Xi)=pq。则:
E
(
X
)
=
E
(
X
1
)
+
E
(
X
2
)
+
.
.
.
+
E
(
X
n
)
=
n
E
(
X
i
)
=
n
p
V
a
r
(
X
)
=
V
a
r
(
X
1
)
+
V
a
r
(
X
2
)
+
.
.
.
+
V
a
r
(
X
n
)
=
n
V
a
r
(
X
i
)
=
n
p
q
E(X) = E(X_1) + E(X_2) + ... + E(X_n) \\ = n E(X_i) \\ = np \\ \\ Var(X) = Var(X_1) + Var(X_2) + ... + Var(X_n) \\ = n Var(X_i) \\ = npq
E(X)=E(X1)+E(X2)+...+E(Xn)=nE(Xi)=npVar(X)=Var(X1)+Var(X2)+...+Var(Xn)=nVar(Xi)=npq
由于试验是独立的,因此,
E
(
X
1
)
=
E
(
X
2
)
=
E
(
X
3
)
E(X_1) = E(X_2) = E(X_3)
E(X1)=E(X2)=E(X3),以此类推。Var(X)同理。
我们先分析了单次试验的情况,求出了期望和方差。再分析了n个独立试验的情况,并利用简便方法求出了n次试验的期望和方差。我们发现,只要X~B(n,p),则:
E
(
X
)
=
n
p
V
a
r
(
X
)
=
n
p
q
E(X) = np \\ Var(X) = npq
E(X)=npVar(X)=npq
上面的公式对所有二项分布都成立。
问:几何分布和二项分布看着很相似。它们有区别吗?分别应该在什么时候用呢?
答:几何分布和二项分布确实有共同之处,二者处理的都是独立试验,每次试验都或是成功,或是失败。差别在于实际上要求的结果。在哪种情况下使用哪种概率分布取决于要求的结果。
如果试验次数固定,求成功一定次数的概率,则需要使用二项分布;使用二项分布还可以求出在n次试验中能够期望取得的成功次数。
如果你感兴趣的是在取得第一次成功之前需要试验多少次,则需要使用几何分布。
问:几何分布是有众数的,二项分布有众数吗?
答:有的。一个概率分布的众数就是具有最高概率的数值,如果p为0.5且n为偶数,则众数为np;如果p为0.5且n为奇数,则该概率分布有两个众数,即位于np左右两侧的两个数值。对于其他n值和p值,则需要通过反复试算的方法求众数,但一般都非常接近np。
问:几何分布和二项分布都要进行大量试验,每一次试验的成功概率都必须一样吗?
答:为了能应用几何分布和二项分布,每一次试验的成功概率都必须相同。如果不满足这个条件,则无论是几何分布还是二项分布都不适用。
我试算出了E(X),但所得结果不是概率分布中的数值。我哪里做错了吗?
答:计算E(X)的时候,结果有可能不是概率分布中的可能数值,即,结果有可能不是一个会实际出现的数值。得出这样的结果并不表示你算错了。
二项分布总结
例题: