§1 随机变量及其分布
1. 随机变量的定义
在随机现象中, 有很多的问题都会和数值发生联系. 实际上, 有一些起初看上去和数值无关的随机现象, 也可以通过将其与数值联系来描述. 一般地, 若 A A A 为某个随机事件, 则必可以通过以下的示性函数将其和数值联系起来:
l A = { 1 若 A 发 生 0 若 A 不 发 生 l_{A} = \begin{cases}1 & 若A发生\\ 0 & 若A不发生\end{cases} lA={10若A发生若A不发生
也就是说, 试验的结果可以用一个数 ξ \xi ξ 表示, 数字 ξ \xi ξ 随着试验结果的不同而变化, 也就是说, 它是样本点的一个函数. 我们称这种量为 随机变量. 下面, 我们考虑, 如何给这种量进行严格的数学定义.
我们所关心的不仅仅是每次试验会出现什么样的结果, 还有这些结果将会以怎样的概率出现. 也就是说, 对于随机变量, 我们不仅需要清楚它会取什么样的数值, 还需要知道它取这些数值的概率.
从随机变量可能取得的结果来看, 我们将随机变量分为两种不同的类型:
- 试验结果 ξ \xi ξ 所可能取的值为有限个, 或至多可列个.
- 实验结果 ξ \xi ξ 所可能取的值不止可列个.
对于第一种类型的随机变量, 将其可能出现的结果一一列出来是可行的. 我们称这种类型的随机变量为 离散型随机变量. 前几章中所讨论的绝大部分随机现象都可以用离散型随机变量来描述.
一般地, 对于定义在样本空间 Ω \Omega Ω 上的离散型随机变量 ξ ( ω ) \xi(\omega) ξ(ω) , 只要我们可以指出它取的值 x 1 , x 2 , ⋯ , x n , ⋯ x_{1},x_{2}, \cdots, x_{n}, \cdots x1,x2,⋯,xn,⋯ 以及它取这些值的概率 P { ξ ( ω ) = x i } , i = 1 , 2 , ⋯ , n , ⋯ P\{\xi(\omega) = x_{i}\} , i = 1,2,\cdots, n,\cdots P{ξ(ω)=xi},i=1,2,⋯,n,⋯, 即满足了我们的要求. 显然, 要实现这一点的前提是 { ξ ( ω ) = x i } \{\xi(\omega) = x_{i}\} {ξ(ω)=xi} 有概率. 因为我们只对事件域 F \mathscr{F} F 中的集合定义概率, 故必须有 { ω : ξ ( ω ) = x i } ∈ F \{\omega:\xi(\omega) = x_{i}\}\in \mathscr{F} {ω:ξ(ω)=xi}∈F.
对于第二种类型的随机变量, 用来描述试验结果的随机变量仍然是样本点 ω \omega ω 的函数, 但是此时随机变量可以取得某个区间中的一切值. 对于这种随机变量 ξ ( ω ) \xi(\omega) ξ(ω), 我们所关心的是 ξ ( ω ) \xi(\omega) ξ(ω) 取值于某个区间 ( a , b ) (a,b) (a,b) 的概率, 因此相应地, 应当要求 { ξ ( ω ) ∈ A } \{ \xi(\omega) \in A\} {ξ(ω)∈A} 有概率可言.
综上, 为了让我们所关心的概率计算得以进行, 必须对 ξ ( ω ) \xi(\omega) ξ(ω) 施加一些限制. 为此, 我们引入如下定义:
定义3.1.1(随机变量)
设 ξ ( ω ) \xi(\omega) ξ(ω) 为定义于概率空间 ( Ω , F , P ) (\Omega, \mathscr{F}, P) (Ω,F,P) 上的单值实函数. 若对于直线上任一个 Borel 点集 B B B , 有
{ ω : ξ ( ω ) ∈ B } ∈ F \{\omega:\xi(\omega) \in B\}\in \mathscr{F} {ω:ξ(ω)∈B}∈F
则称 ξ ( ω ) \xi(\omega) ξ(ω) 为 随机变量, 而 P { ξ ( ω ) ∈ B } P\{\xi(\omega)\in B\} P{ξ(ω)∈B} 称为随机变量 ξ ( ω ) \xi(\omega) ξ(ω) 的 概率分布.
定义3.1.2(分布函数)
称
F ( x ) = P { ξ ( ω ) ≤ x } , − ∞ ≤ x ≤ + ∞ F(x) = P\{\xi(\omega) \leq x\}, \ \ -\infty\leq x \leq +\infty F(x)=P{ξ(ω)≤x}, −∞≤x≤+∞
为随机变量 ξ ( ω ) \xi(\omega) ξ(ω) 的 分布函数.
[注]
方便起见, 将 "随机变量 ξ ( ω ) \xi(\omega) ξ(ω) 服从分布函数 F ( x ) F(x) F(x)" 简记为 ξ ( ω ) ∼ F ( x ) \xi(\omega) \sim F(x) ξ(ω)∼F(x).
2. 分布函数的性质
下面, 我们先将分布函数最基本的性质汇集于以下定理中:
定理3.1.1
分布函数 F ( x ) F(x) F(x) 具有如下性质:
- 若 a < b a < b a<b, 则 F ( a ) < F ( b ) F(a) < F(b) F(a)<F(b).
- lim x → − ∞ F ( x ) = 0 , lim x → + ∞ F ( x ) = 1 \lim_{x \rightarrow -\infty}F(x) = 0, \lim_{x \rightarrow +\infty}F(x) = 1 limx→−∞F(x)=0,limx→+∞F(x)=1
- F ( x − 0 ) = F ( x ) F(x-0) = F(x) F(x−0)=F(x)
[证明]
-
F ( b ) − F ( a ) = P { a ⩽ ξ ⩽ b } ⩾ 0. F(b)-F(a) = P\{a\leqslant \xi \leqslant b\} \geqslant 0. F(b)−F(a)=P{a⩽ξ⩽b}⩾0.
-
P { − ∞ < ξ < + ∞ } = ∑ n = − ∞ ∞ P { n ⩽ ξ < n + 1 } = ∑ n = − ∞ ∞ [ F ( n + 1 ) − F ( n ) ] = lim n → + ∞ F ( n ) − lim m → − ∞ F ( m ) = 1 P\{-\infty < \xi < +\infty \} = \sum_{n = -\infty}^{\infty}P\{n \leqslant \xi < n+1\} \\= \sum_{n = -\infty}^{\infty}[F(n+1) - F(n)] \\ = \lim_{n \rightarrow +\infty}F(n) - \lim_{m \rightarrow -\infty}F(m) = 1 P{−∞<ξ<+∞}=∑n=−∞∞P{n⩽ξ<n+1}=∑n=−∞∞[F(n+1)−F(n)]=limn→+∞F(n)−limm→−∞F(m)=1
由于 F ( x ) F(x) F(x) 的单调性:
lim x → − ∞ F ( x ) = lim x → − ∞ F ( m ) \lim_{x\rightarrow -\infty}F(x) = \lim_{x \rightarrow -\infty}F(m) x→−∞limF(x)=x→−∞limF(m)
lim x → + ∞ F ( x ) = lim x → + ∞ F ( n ) \lim_{x\rightarrow +\infty}F(x) = \lim_{x \rightarrow +\infty}F(n) x→+∞limF(x)=x→+∞limF(n)
存在.因 0 ⩽ F ( x ) ⩽ 0 0\leqslant F(x) \leqslant 0 0⩽F(x)⩽0, 故
lim x → − ∞ F ( x ) = 0 , lim x → + ∞ F ( x ) = 1. \lim_{x \rightarrow -\infty}F(x) = 0, \lim_{x \rightarrow +\infty}F(x) = 1. x→−∞limF(x)=0,x→+∞limF(x)=1. -
由于 F ( x ) F(x) F(x) 为单调函数, 故只需证明, 对于一单调递增的柯西列 { x i } → x \{x_{i}\} \rightarrow x {xi}→x, 成立 lim n → ∞ F ( x n ) = F ( x ) \lim_{n \rightarrow \infty}F(x_{n}) = F(x) limn→∞F(xn)=F(x).
因为
F ( x ) − F ( x 0 ) = P { x 0 ⩽ ξ < x } = ∑ n = 1 ∞ [ F ( x n ) − F ( x n − 1 ) ] = lim n → ∞ F ( x n ) − F ( x 0 ) . F(x) - F(x_{0}) = P\{x_{0} \leqslant \xi <x \} \\ = \sum_{n = 1}^{\infty}[F(x_{n}) - F(x_{n-1})] = \lim_{n \rightarrow \infty}F(x_{n}) - F(x_{0}). F(x)−F(x0)=P{x0⩽ξ<x}=n=1∑∞[F(xn)−F(xn−1)]=n→∞limF(xn)−F(x0).
故
F ( x − 0 ) = lim n → ∞ F ( x n ) = F ( x ) . F(x-0) = \lim_{n \rightarrow \infty} F(x_{n}) = F(x). F(x−0)=n→∞limF(xn)=F(x).
可看出, 分布函数的三个基本性质恰好对应于概率的三个基本性质. 在定义了分布函数后, 关于随机变量 ξ ( ω ) \xi(\omega) ξ(ω) 的诸多概率都可以被很方便地计算出来.
分布函数是一种分析性质十分良好的函数, 便于处理. 因此, 给定了分布函数后, 我们就可以计算出各种事件的概率. 实际上, 引进了分布函数后, 许多概率论问题都实际上简化, 或归结为函数的运算. 这样, 我们就可以利用分析学的许多结果.
在本章第三节中, 我们还将证明: 满足定理上述三个性质的函数必为某随机变量的分布函数.
对于随机变量及其概率分布的研究, 最好按照随机变量的不同类型分类讨论. 下面, 我们按照这样的思路加以叙述.
3. 离散型随机变量
设
{
x
i
}
\{x_{i}\}
{xi} 为离散型随机变量
ξ
\xi
ξ 的所有可能值, 而
p
(
x
i
)
p(x_{i})
p(xi) 为
ξ
\xi
ξ 取
x
i
x_{i}
xi 的概率, 即:
P
{
ξ
=
x
i
}
=
p
(
x
i
)
,
i
=
1
,
2
,
⋯
P\{\xi = x_{i}\} = p(x_{i}), ~~ i = 1,2,\cdots
P{ξ=xi}=p(xi), i=1,2,⋯
{
p
(
x
i
)
,
i
=
1
,
2
,
⋯
}
\{p(x_{i}), i = 1,2,\cdots\}
{p(xi),i=1,2,⋯} 称为随机变量
ξ
\xi
ξ 的 概率分布, 它应满足下列关系:
p
(
x
i
)
⩾
0
,
i
=
1
,
2
,
⋯
p(x_{i}) \geqslant 0, ~~ i = 1,2,\cdots
p(xi)⩾0, i=1,2,⋯
∑
i
=
1
∞
p
(
x
i
)
=
1
\sum_{i = 1}^{\infty}p(x_{i}) = 1
i=1∑∞p(xi)=1
当给定了
{
x
i
,
i
=
1
,
2
,
⋯
}
\{x_{i}, i = 1,2,\cdots\}
{xi,i=1,2,⋯} 和
{
p
(
x
i
)
,
i
=
1
,
2
,
⋯
}
\{p(x_{i}), i = 1,2,\cdots \}
{p(xi),i=1,2,⋯}, 就可以很好的将随机变量
ξ
\xi
ξ 加以描述, 因为我们已经知道了它取什么值, 以及相应的概率. 我们常常使用分布列表出离散型随机变量的概率分布.
在得出分布列后, 我们可以通过下式求得分布函数:
F
(
x
)
=
P
{
ξ
<
x
}
=
∑
x
k
<
x
p
(
x
k
)
F(x) = P\{\xi <x\} = \sum_{x_{k}<x}p(x_{k})
F(x)=P{ξ<x}=xk<x∑p(xk)
显然,
F
(
x
)
F(x)
F(x) 是一个跳跃函数. 它在每个
x
k
x_{k}
xk 处均有跳跃度
p
(
x
k
)
p(x_{k})
p(xk).
下面, 举一些离散型随机变量的例子:
[退化分布]
若随机变量
α
\alpha
α 只取常数值
c
c
c, 即:
P
{
α
=
c
}
=
1
P\{\alpha = c\} = 1
P{α=c}=1
此时分布函数为:
I
c
(
x
)
=
{
0
,
x
⩽
c
1
,
x
>
c
I_{c}(x) = \begin{cases}0, & x \leqslant c \\ 1, & x>c \end{cases}
Ic(x)={0,1,x⩽cx>c
此时, 我们将其视为随机变量的退化情况, 称其为 退化分布, 亦称为 单点分布.
[Bernoulli分布]
在单次试验中, 事件
A
A
A 出现的概率为
p
p
p, 不出现的概率为
1
−
p
1-p
1−p. 以
β
\beta
β 记事件
A
A
A 出现的次数, 则
β
\beta
β 仅取
0
,
1
0,1
0,1 两值. 相应的概率分布为;
b
k
=
P
{
β
=
k
}
=
p
k
q
1
−
k
,
k
=
0
,
1
b_{k} = P\{\beta = k\} = p^{k}q^{1-k}, ~~~ k = 0,1
bk=P{β=k}=pkq1−k, k=0,1
称此分布为 Bernoulli 分布, 亦称为 两点分布.
[二项分布]
在
n
n
n 重 Bernoulli 试验中, 以
μ
\mu
μ 记成功的次数, 则它是一个随机变量,
μ
\mu
μ 可能取的值为
0
,
1
,
⋯
,
n
0,1,\cdots,n
0,1,⋯,n. 其对应的概率由二项分布给出:
b
(
k
,
n
,
p
)
=
P
{
μ
=
k
}
=
(
n
k
)
p
k
q
1
−
k
,
k
=
0
,
1
,
⋯
,
n
b(k,n,p) = P\{\mu = k\} = \binom nk p^{k}q^{1-k}, ~~~ k = 0,1,\cdots,n
b(k,n,p)=P{μ=k}=(kn)pkq1−k, k=0,1,⋯,n
通常简记为
μ
∼
B
(
n
,
p
)
\mu \sim B(n,p)
μ∼B(n,p).
[超几何分布]
对某批次的
N
N
N 件产品进行不放回的抽样检查, 若该批产品中有
M
M
M 件次品, 现在从整批产品中随机抽出
n
n
n 件产品, 则在这
n
n
n 件产品中出现的次品数
ν
\nu
ν 是随机变量, 其取值为
0
,
1
,
⋯
,
n
0,1,\cdots,n
0,1,⋯,n, 其概率为超几何分布:
h
k
=
P
{
ν
=
k
}
=
(
M
k
)
(
N
−
M
n
−
k
)
(
N
n
)
h_{k} = P\{\nu = k\} = \frac{\binom Mk \binom {N-M}{n-k}}{\binom Nn}
hk=P{ν=k}=(nN)(kM)(n−kN−M)
且满足
0
⩽
k
⩽
n
⩽
N
,
k
⩽
M
0 \leqslant k \leqslant n\leqslant N, ~~~ k \leqslant M
0⩽k⩽n⩽N, k⩽M
[Poisson分布]
若随机变量
ξ
\xi
ξ 可取一切非负整数值, 且
P
{
ξ
=
k
}
=
λ
k
k
!
e
−
λ
,
k
=
0
,
1
,
⋯
P\{\xi = k\} = \frac{\lambda^{k}}{k!}e^{-\lambda}, ~~~ k = 0,1,\cdots
P{ξ=k}=k!λke−λ, k=0,1,⋯
其中
λ
>
0
\lambda>0
λ>0, 则称
ξ
\xi
ξ 服从 Poisson 分布, 简记作
ξ
∼
P
(
λ
)
\xi \sim P(\lambda)
ξ∼P(λ).
[Pascal分布]
在成功概率为
p
p
p 的 Bernoulli 试验中, 若以
ζ
\zeta
ζ 记第
r
r
r 次成功出现时的试验次数, 则
ζ
\zeta
ζ 为随机变量, 取值
r
,
r
+
1
,
⋯
r,r+1, \cdots
r,r+1,⋯. 其概率分布为 Pascal 分布:
P
{
ζ
=
k
}
=
(
k
−
1
r
−
1
)
p
r
q
k
−
r
,
k
=
r
,
r
+
1
,
⋯
P\{\zeta = k\} = \binom{k-1}{r-1}p^{r}q^{k-r}, ~~~ k = r,r+1,\cdots
P{ζ=k}=(r−1k−1)prqk−r, k=r,r+1,⋯
[负二极分布]
在 Pascal 分布的基础上, 去掉对 r r r 是正整数的限制, 即得到负二项分布:
对任意实数
r
>
0
r>0
r>0, 称
N
b
(
l
;
r
,
p
)
=
(
−
r
l
)
p
r
q
l
,
l
=
0
,
1
,
⋯
Nb(l;r,p) = \binom{-r}{l}p^{r}q^{l}, ~~~ l = 0,1,\cdots
Nb(l;r,p)=(l−r)prql, l=0,1,⋯
为 负二项分布.
4. 连续型随机变量
除了离散型随机变量以外, 还有另一类重要的随机变量: 连续型随机变量. 这种随机变量
ξ
\xi
ξ 可取某个区间上的一切值, 且其分布函数
F
(
x
)
F(x)
F(x) 是绝对连续函数, 即存在可积函数
p
(
x
)
p(x)
p(x), 使
F
(
x
)
=
∫
−
∞
x
p
(
y
)
d
y
F(x) = \int^{x}_{-\infty}p(y)dy
F(x)=∫−∞xp(y)dy
称
p
(
x
)
p(x)
p(x) 为
ξ
\xi
ξ 的 (分布) 密度函数.
显然可知:
p
(
x
)
=
F
′
(
x
)
.
p(x) = F'(x).
p(x)=F′(x).
由分布函数的性质可知: 对
p
(
x
)
p(x)
p(x) 应有:
p
(
x
)
⩾
0
p(x)\geqslant 0
p(x)⩾0
∫
−
∞
+
∞
p
(
x
)
d
x
=
1
\int^{+\infty}_{-\infty}p(x)dx = 1
∫−∞+∞p(x)dx=1
反之: 对于定义在
(
−
∞
,
+
∞
)
(-\infty, +\infty)
(−∞,+∞) 上的可积函数
p
(
x
)
p(x)
p(x), 若它满足上述两条性质, 则所定义的函数
F
(
x
)
F(x)
F(x) 为一个分布函数, 具有分布函数所具备的三条性质.
由于在若干个点, 甚至一个零测集上改变被积函数 p ( x ) p(x) p(x) 的值均不影响积分 F ( x ) F(x) F(x) 的值, 因此关于 p ( x ) p(x) p(x) 的论断通常都是在 “几乎处处” 的意义上成立.
立即得到:
P
{
a
⩽
ξ
<
b
}
=
F
(
b
)
−
F
(
a
)
=
∫
a
b
p
(
x
)
d
x
P\{a\leqslant \xi < b\} = F(b) - F(a) = \int_{a}^{b}p(x)dx
P{a⩽ξ<b}=F(b)−F(a)=∫abp(x)dx
因此, 给定密度函数后便可计算出随机变量落入某一个区间的概率.
进一步地, 我们可以证明: 对于任何Borel点集
B
B
B , 有
P
{
ξ
∈
B
}
=
∫
B
p
(
x
)
d
x
P\{\xi \in B\} = \int_{B}p(x)dx
P{ξ∈B}=∫Bp(x)dx
不难得出: 连续型随机变量取个别值得概率为 0 0 0. 这和离散型随机变量是截然不同的. 因此, 通过列举连续型随机变量取某个值的概率来描述这种随机变量是不可行的, 是没有意义的.
此外, 上述结果同时表明: 一个事件的概率等于零并不意味着它一定是不可能事件. 同样, 一个事件的概率为1也不一定是必然事件.
我们还可以使用密度函数的数值反映随机变量取
x
x
x 附近值的概率大小:
在
p
(
x
)
p(x)
p(x) 的连续点
x
x
x 处:
p
(
x
)
Δ
x
≈
∫
x
x
+
Δ
x
p
(
y
)
d
y
=
F
(
x
+
Δ
x
)
−
F
(
x
)
.
p(x)\Delta x \approx \int_{x}^{x+ \Delta x}p(y)dy = F(x+\Delta x) - F(x).
p(x)Δx≈∫xx+Δxp(y)dy=F(x+Δx)−F(x).
下面, 举一些常见的连续型分布的例子:
[均匀分布]
若
a
,
b
a,b
a,b 为有限数, 称由下列密度函数所定义的分布为
[
a
,
b
]
[a,b]
[a,b] 上的 均匀分布:
p
(
x
)
=
{
1
b
−
a
,
a
⩽
x
⩽
b
0
,
x
<
a
或
x
>
b
p(x) = \begin{cases} \frac{1}{b-a}, ~~~ a\leqslant x \leqslant b \\ 0, ~~~ x<a 或 x>b\end{cases}
p(x)={b−a1, a⩽x⩽b0, x<a或x>b
相应的分布函数为:
F
(
x
)
=
{
0
,
x
⩽
a
x
−
a
b
−
a
,
a
<
x
⩽
b
1
,
x
>
b
F(x) = \begin{cases} 0, && x\leqslant a \\ \frac{x-a}{b-a}, && a<x\leqslant b \\ 1, && x>b \end{cases}
F(x)=⎩⎪⎨⎪⎧0,b−ax−a,1,x⩽aa<x⩽bx>b
简记 "
[
a
,
b
]
[a,b]
[a,b] 上均匀分布" 为
U
[
a
,
b
]
U[a,b]
U[a,b] .
若随机变量 ξ \xi ξ 服从 [ a , b ] [a,b] [a,b] 上均匀分布, 则 ξ \xi ξ 在 [ a , b ] [a,b] [a,b] 中取值落在某一区域内的概率与这个区域的测度成正比, 即: ξ \xi ξ 取 [ a , b ] [a,b] [a,b] 中任一点的可能性一样.
[正态分布]
密度函数为
p
(
x
)
=
1
2
π
σ
e
−
(
x
−
μ
)
2
2
σ
2
,
−
∞
<
x
<
+
∞
p(x) = \frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{(x-\mu)^2}{2\sigma^2}}, ~~~ -\infty<x<+\infty
p(x)=2πσ1e−2σ2(x−μ)2, −∞<x<+∞
其中
σ
>
0
\sigma>0
σ>0,
μ
\mu
μ 和
σ
\sigma
σ 均为常数, 相应的分布函数为
F
(
x
)
=
1
2
π
σ
∫
−
∞
x
e
−
(
y
−
μ
)
2
2
σ
2
d
y
,
−
∞
<
x
<
+
∞
F(x) = \frac{1}{\sqrt{2\pi}\sigma}\int_{-\infty}^{x}e^{-\frac{(y-\mu)^{2}}{2\sigma^2}}dy, ~~~ -\infty <x< +\infty
F(x)=2πσ1∫−∞xe−2σ2(y−μ)2dy, −∞<x<+∞
称这样的分布为 正态分布, 简记为
N
(
μ
,
σ
2
)
N(\mu, \sigma^{2})
N(μ,σ2).
特别地, 当 μ = 0 , σ = 1 \mu = 0, \sigma = 1 μ=0,σ=1 时, 分布称为 标准正态分布. 记为 N ( 0 , 1 ) N(0,1) N(0,1).
习惯上, 将服从正态分布的随机变量称为 正态变量.
可以验证: 若随机变量 ξ \xi ξ 服从正态分布 N ( μ , σ 2 ) N(\mu, \sigma^2) N(μ,σ2), 则随机变量 ζ = ξ − μ σ \zeta = \frac{\xi - \mu}{\sigma} ζ=σξ−μ 服从 N ( 0 , 1 ) N(0,1) N(0,1).
[指数分布]
分布密度函数为
p
(
x
)
=
{
λ
e
−
λ
x
,
x
⩾
0
0
,
x
<
0
p(x) = \begin{cases} \lambda e^{-\lambda x}, && x \geqslant 0 \\ 0, && x<0 \end{cases}
p(x)={λe−λx,0,x⩾0x<0
分布函数为
F ( x ) = { 1 − e − λ x , x ⩾ 0 0 , x < 0 F(x) = \begin{cases} 1-e^{-\lambda x}, && x \geqslant 0 \\ 0, && x<0 \end{cases} F(x)={1−e−λx,0,x⩾0x<0
此处 λ > 0 \lambda>0 λ>0, 是参数, 称该分布为 指数分布, 简记为 E x p ( λ ) Exp(\lambda) Exp(λ).