(1)伯努利试验
若试验 E E E只可能出现 A A A和 B B B两种结果,则称该类试验为伯努利试验。显然,若 P ( A ) = p P(A)=p P(A)=p,则有 P ( B ) = 1 − p P(B)=1-p P(B)=1−p,将 E E E独立地重复 n n n次,则将这一串试验称为 n n n重伯努利试验。
(2)二项分布
二项分布是建立在
n
n
n重伯努利试验的基础上,它表示在一轮
n
n
n重伯努利试验过程中,结果
A
A
A恰好出现
k
k
k次的概率,显然,其概率分布可以表示为:
X
∽
B
(
n
,
k
)
:
P
(
X
=
k
)
=
(
n
k
)
p
k
(
1
−
p
)
n
−
k
(1)
X \backsim B(n,k): P(X=k)=\begin{pmatrix} n \\ k \end{pmatrix}p^k (1-p)^{n-k} \tag{1}
X∽B(n,k):P(X=k)=(nk)pk(1−p)n−k(1)
由于
k
∈
[
0
,
n
]
k \in [0,n]
k∈[0,n],所以
∑
k
=
0
n
P
(
X
=
k
)
=
∑
k
=
0
n
(
n
k
)
p
k
(
1
−
p
)
n
−
k
=
1
\sum_{k=0}^n{P(X=k)}=\sum_{k=0}^n{\begin{pmatrix} n \\ k \end{pmatrix}p^k (1-p)^{n-k}}=1
∑k=0nP(X=k)=∑k=0n(nk)pk(1−p)n−k=1。
(3)泊松分布
泊松分布的概率分布表示为
X
∽
π
(
λ
)
:
P
(
X
=
k
)
=
λ
k
k
!
e
−
λ
(2)
X \backsim \pi(\lambda):P(X=k)=\frac{\lambda^k}{k!}e^{-\lambda} \tag{2}
X∽π(λ):P(X=k)=k!λke−λ(2)
直接看(2)式很难理解泊松分布的含义以及用处,其实它跟二项分布是有联系的。在二项分布中,如果我们令
p
→
0
p \rightarrow 0
p→0,
n
→
∞
n \rightarrow \infty
n→∞,同时
n
p
=
λ
n p=\lambda
np=λ,则此时的二项分布即为泊松分布。举个实例进行说明,在射击运动中,每次射中靶子的概率为
p
p
p,没射中的概率为
1
−
p
1-p
1−p,二项分布表示
n
n
n次射箭机会中恰好射中
k
k
k次的概率。泊松分布则表示,在命中概率很小的情况下(
p
p
p很小),给予很多次射击的机会(
n
n
n很大),恰好射中
k
k
k次的概率。所以泊松分布是二项分布在小概率情况下的一种特殊应用。以下证明上述结论:
由
n
p
=
λ
np=\lambda
np=λ可以得到
p
=
λ
/
n
p=\lambda/n
p=λ/n,将其代入(1)中,可以得到
P
(
X
=
k
)
=
n
!
k
!
(
n
−
k
)
!
λ
k
n
k
(
1
−
λ
n
)
n
−
k
=
λ
k
k
!
n
!
(
n
−
k
)
!
n
k
(
1
−
λ
n
)
−
k
(
1
−
λ
n
)
n
(3)
\begin{equation} \begin{aligned} P(X=k)&=\frac{n!}{k!(n-k)!}\frac{\lambda^k}{n^k}(1-\frac{\lambda}{n})^{n-k}\\ &=\frac{\lambda^k}{k!}\frac{n!}{(n-k)!n^k}(1-\frac{\lambda}{n})^{-k}(1-\frac{\lambda}{n})^n \end{aligned} \end{equation}\tag{3}
P(X=k)=k!(n−k)!n!nkλk(1−nλ)n−k=k!λk(n−k)!nkn!(1−nλ)−k(1−nλ)n(3)
显然,当
n
→
∞
n \rightarrow \infty
n→∞时,下面各式成立:
lim
n
→
∞
n
!
(
n
−
k
)
!
n
k
=
lim
n
→
∞
n
(
n
−
1
)
.
.
.
(
n
−
k
+
1
)
n
k
=
1
lim
n
→
∞
(
1
−
λ
n
)
−
k
=
1
lim
n
→
∞
(
1
−
λ
n
)
n
=
e
x
p
(
−
λ
)
(4)
\begin{equation} \begin{aligned} \lim_{n \to \infty}{\frac{n!}{(n-k)!n^k}}&=\lim_{n \to \infty}{\frac{n(n-1)...(n-k+1)}{n^k}}=1\\ \lim_{n \to \infty}{(1-\frac{\lambda}{n})^{-k}}&=1\\ \lim_{n \to \infty}{(1-\frac{\lambda}{n})^n}&={\rm exp}(-\lambda) \end{aligned} \end{equation}\tag{4}
n→∞lim(n−k)!nkn!n→∞lim(1−nλ)−kn→∞lim(1−nλ)n=n→∞limnkn(n−1)...(n−k+1)=1=1=exp(−λ)(4)
将(4)中各式代入(3)可以得到
lim
n
→
∞
,
n
p
=
λ
(
n
k
)
p
k
(
1
−
p
)
n
−
k
=
λ
k
k
!
e
−
λ
\lim_{n \to \infty,np=\lambda}{\begin{pmatrix} n \\ k \end{pmatrix}p^k (1-p)^{n-k}}=\frac{\lambda^k}{k!}e^{-\lambda}
n→∞,np=λlim(nk)pk(1−p)n−k=k!λke−λ
证毕。
上面给出的均是离散情况下常用的分布,以下给出几个连续情况下的常用分布。
(4)均匀分布
均匀分布的概率密度函数表示为:
X
∽
U
(
a
,
b
)
:
f
(
x
)
=
{
1
b
−
a
,
a < x < b
0
,
other
(5)
X \backsim U(a,b):f(x)=\begin{cases}\frac{1}{b-a},& \text{a < x < b}\\ 0, & \text{other}\end{cases}\tag{5}
X∽U(a,b):f(x)={b−a1,0,a < x < bother(5)
上面的式子表示一个随机变量
X
X
X落在
(
a
,
b
)
(a,b)
(a,b)区间上任意位置上的概率是相同的,即在区间
(
a
,
b
)
(a,b)
(a,b)上的所有事件发生的可能性是相同的。
(5)指数分布
指数分布的概率密度函数表示为:
X
∽
E
(
λ
)
:
f
(
x
)
=
λ
e
−
λ
x
(6)
X \backsim E(\lambda):f(x)=\lambda e^{-\lambda x}\tag{6}
X∽E(λ):f(x)=λe−λx(6)
对比泊松分布和指数分布的概率分布情况,可以看出,两者是有一定联系的,若令泊松分布中
k
=
1
k=1
k=1,则两者就接近一致了,所以参考泊松分布的应用场景,我们可以得知,指数分布是用来表示在一系列事件中,第一次出现某一种结果的概率分布,如在机械长时间测试中,第一次出现故障的时间。
指数分布最重要的性质是它的无记忆性,这个性质不好用很严谨的语句去定义它,不过可以通过一个简单的例子来理解它的内容:我们现在想测试灯泡的使用寿命,假设一个灯泡 A A A已经连续亮了100个小时,那么它在第120个小时发生故障的概率其实和一个跟它一模一样的新的灯泡在第20小时发生故障的概率是一样的。也就是说,灯泡 A A A将自己已经正常工作了100个小时这个事情忘了。显然这个性质是很难直观去理解的,不过不论是从严谨的理论推导还是从工程实践上它都已经被不断地得到验证,以下分别从和两方面进行说明。
指数分布的无记忆性用符号来表示其实就是:
P
(
X
>
s
+
t
∣
X
>
s
)
=
P
(
X
>
t
)
P(X>s+t|X>s)=P(X>t)
P(X>s+t∣X>s)=P(X>t),现在来证明这个结论:由条件概率计算公式可知
P
(
X
>
s
+
t
∣
X
>
s
)
=
P
(
X
>
s
+
t
)
∩
P
(
X
>
s
)
P
(
X
>
s
)
P(X>s+t|X>s)=\frac{P(X>s+t) \cap P(X>s)}{P(X>s)}
P(X>s+t∣X>s)=P(X>s)P(X>s+t)∩P(X>s),由于
X
>
s
+
t
X>s+t
X>s+t必然能推出
X
>
t
X>t
X>t,所以
P
(
X
>
s
+
t
)
∩
P
(
X
>
s
)
=
P
(
X
>
s
+
t
)
P(X>s+t) \cap P(X>s)=P(X>s+t)
P(X>s+t)∩P(X>s)=P(X>s+t),所以
P
(
X
>
s
+
t
∣
X
>
s
)
=
P
(
X
>
s
+
t
)
∩
P
(
X
>
s
)
P
(
X
>
s
)
=
P
(
X
>
s
+
t
)
P
(
X
>
s
)
=
∫
s
+
t
∞
λ
e
−
λ
x
d
x
∫
s
∞
λ
e
−
λ
x
d
x
=
e
−
λ
t
P
(
X
>
t
)
=
∫
t
∞
λ
e
−
λ
x
d
x
=
e
−
λ
t
(7)
\begin{equation} \begin{aligned} P(X>s+t|X>s)&=\frac{P(X>s+t) \cap P(X>s)}{P(X>s)}=\frac{P(X>s+t)}{P(X>s)}\\ &=\frac{\int_{s+t}^\infty{\lambda e^{-\lambda x}dx}}{\int_s^\infty{\lambda e^{-\lambda x}dx}}=e^{-\lambda t}\\ P(X>t)&=\int_t^\infty{\lambda e^{-\lambda x}dx}=e^{-\lambda t} \end{aligned} \end{equation}\tag{7}
P(X>s+t∣X>s)P(X>t)=P(X>s)P(X>s+t)∩P(X>s)=P(X>s)P(X>s+t)=∫s∞λe−λxdx∫s+t∞λe−λxdx=e−λt=∫t∞λe−λxdx=e−λt(7)
证毕。
其实,在机械制造领域,关于机械故障率和使用时间之间的函数关系大体上是符合"澡盆模型"的,即在开始和最后阶段,机械故障率高,在中间很长一段时间内故障率是保持基本不变的。这也一定程度上印证了指数分布的无记忆特性在工程上的应用价值。
(6)高斯分布
高斯分布的概率密度函数可以表示为:
X
∽
N
(
μ
,
σ
2
)
:
f
(
x
)
=
1
2
π
σ
e
x
p
[
−
(
x
−
μ
)
2
2
σ
2
]
(8)
X \backsim N(\mu,\sigma^2):f(x)=\frac{1}{\sqrt{2\pi}\sigma}{\rm exp}[-\frac{(x-\mu)^2}{2\sigma^2}]\tag{8}
X∽N(μ,σ2):f(x)=2πσ1exp[−2σ2(x−μ)2](8)
高斯分布大名鼎鼎,且在各个方面均发挥了重要的作用。它之所以适用范围如此广泛,得益于中心极限定理阐释的事实,即当一个事件受许多不用因素影响时,不管各个因素本来服从什么分布,他们总的影响往往是服从高斯分布的。怪不得经常听到高斯噪声的说法,显然噪声来源方方面面,根据中心极限定理,它最有可能服从高斯分布。