文章目录
概率论导论(续)
上一节中,张志华老师对可测空间 ( Ω , A , P ) (\Omega, \mathcal{A}, P) (Ω,A,P)的建立进行了介绍。本节在已经建立可测空间的基础上,进一步对概率测度 P ( A i ) P(A_{i}) P(Ai)的性质进行了介绍。认为本节中的“事件集”均是可测集。
一. 概率测度的性质
1.1 单调性
对事件集A和B,当
A
⊂
B
A \subset B
A⊂B,有:
P
(
A
)
≤
P
(
B
)
P(A) \leq P(B)
P(A)≤P(B)
由
P
(
B
)
=
P
(
A
)
+
P
(
A
c
∩
B
)
P(B) = P(A) + P(A^c \cap B)
P(B)=P(A)+P(Ac∩B)即证。
1.2 容斥原理(Jordan公式)
P
(
A
∪
B
)
=
P
(
A
)
+
P
(
B
)
−
P
(
A
∩
B
)
P(A \cup B) = P(A) + P(B) - P(A \cap B)
P(A∪B)=P(A)+P(B)−P(A∩B)
容斥原理是概率论中最知名的定理之一,可进一步扩展至N个事件集的版本:
P
(
⋃
i
=
1
n
A
i
)
=
∑
i
=
1
n
P
(
A
i
)
−
∑
i
=
1
n
−
1
∑
j
=
i
+
1
n
P
(
A
i
∪
A
j
)
+
.
.
.
P(\bigcup_{i=1}^{n} A_{i}) = \sum_{i=1}^{n} P(A_{i}) - \sum_{i=1}^{n-1} \sum_{j=i+1}^{n} P(A_{i} \cup A_{j}) + ...
P(i=1⋃nAi)=i=1∑nP(Ai)−i=1∑n−1j=i+1∑nP(Ai∪Aj)+...对于两事件集的容斥原理,结合维恩图(Venn Diagram)易证。之后继续采用数学归纳法证明多事件集的容斥原理。
容斥原理的意义:应用容斥原理,可将一些较复杂的概率计算问题进行分解,逐步计算出某复杂事件集的概率。我们举个例子1:
设帽子有从1到n的编号,有n个人 a 1 a_{1} a1到 a n a_{n} an需要取到对应编号的帽子。求至少有一人拿对自己的帽子的概率?
解:(下面非最便捷的解法,仅为展示容斥原理)
设事件 A i A_{i} Ai表示第i人取到正确的帽子,则 ∪ i = 1 n A i \cup_{i=1}^{n} A_{i} ∪i=1nAi为我们需要计算概率的事件,对应求解 P ( ∪ i = 1 n A i ) P(\cup_{i=1}^{n} A_{i}) P(∪i=1nAi)。
P ( A i ) = ( n − 1 ) ! n ! \quad P(A_{i})=\frac{(n-1)!}{n!} P(Ai)=n!(n−1)!
P ( A i A j ) = ( n − 2 ) ! n ! \quad P(A_{i}A_{j})=\frac{(n-2)!}{n!} P(AiAj)=n!(n−2)!
. . . \quad ... ...
P ( A 1 A 2 . . . A n ) = 1 n ! \quad P(A_{1}A_{2}...A_{n})=\frac{1}{n!} P(A1A2...An)=n!1
之后代入Jordan公式中,由泰勒公式有即有 P ( ∪ i = 1 n A i ) = ∑ k = 1 n ( − 1 ) k − 1 k ! \quad P(\cup_{i=1}^{n} A_{i}) = \sum_{k=1}^{n} \frac{(-1)^{k-1}}{k!} P(∪i=1nAi)=∑k=1nk!(−1)k−1
可见,以上的较复杂的事件经分解再代入Jordan公式中较易计算。
1.3 概率测度的连续性(Continuity of Probability)
If
lim
n
→
∞
A
n
→
A
⇒
P
(
A
n
)
→
P
(
A
)
\lim_{n \to \infty} A_{n} \to A \Rightarrow P(A_{n}) \to P(A)
limn→∞An→A⇒P(An)→P(A)
由可列可加性和单调性易证。
1.4 独立事件(Independent)
若事件A和事件B相互独立,则 P ( A B ) = P ( A ) P ( B ) P(AB)=P(A)P(B) P(AB)=P(A)P(B),否则有 P ( A B ) = P ( A ∣ B ) P ( B ) P(AB)=P(A|B)P(B) P(AB)=P(A∣B)P(B)。
二. 条件概率和贝叶斯定理
贝叶斯公式是统计机器学习中最重要的公式之一,在参数估计中首先为参数赋予先验分布(prior)再进行计算的方法就来源于贝叶斯公式。历史上,贝叶斯在生前没有因这条公式而出名,在去世后贝叶斯公式才受到关注,也催生了之前介绍过的贝叶斯派统计学家。
2.1 条件概率(conditional probability)
假定P(B) > 0, 则 P ( A ∣ B ) = P ( A B ) P ( B ) P(A|B)=\frac {P(AB)}{P(B)} P(A∣B)=P(B)P(AB)。也容易发现,当A与B相互独立,有 P ( A ∣ B ) = P ( A ) P(A|B)=P(A) P(A∣B)=P(A)。
2.2 贝叶斯定理(Bayes’ thereom)
首先,有全概率公式:
A
1
,
A
2
,
.
.
.
,
A
i
是
样
本
空
间
Ω
的
划
分
(
P
a
r
t
i
t
i
o
n
)
对
事
件
集
B
有
:
P
(
B
)
=
∑
i
=
1
n
P
(
B
∣
A
i
)
P
(
A
i
)
A_{1}, A_{2}, ..., A_{i}是样本空间\Omega的划分(Partition) \\ 对事件集B有: P(B)=\sum_{i=1}^{n}P(B|A_{i})P(A_{i})
A1,A2,...,Ai是样本空间Ω的划分(Partition)对事件集B有:P(B)=i=1∑nP(B∣Ai)P(Ai)
则有贝叶斯公式:
P
(
A
i
∣
B
)
=
P
(
B
∣
A
i
)
P
(
A
i
)
P
(
B
)
P(Ai|B)=\frac{P(B|A_{i})P(A_{i})}{P(B)}
P(Ai∣B)=P(B)P(B∣Ai)P(Ai)贝叶斯公式是后续最大后验估计(MAP)的理论基础,在机器学习领域能量巨大;另一方面,构造朴素贝叶斯分类器时,也以该公式为理论基础:随着训练样本的逐渐增加,根据大数定律,
P
(
B
∣
A
i
)
P(B|A_{i})
P(B∣Ai)和
P
(
A
i
)
P(A_{i})
P(Ai)都更加准确(i.e., 接近真实值),那么预测的准确度也自然提高。
三. 随机变量概述
3.1 随机变量的定义
在前述介绍中,我们对样本空间,以及如何对样本空间中的事件的发生概率进行测量。 然而,在处理实际问题时,每次都用语言表示事件十分繁琐,能否将事件映射到数值?随机变量(random variable)被定义为映射:
X
:
Ω
→
R
X: \Omega \to \mathbb{R}
X:Ω→R
注:可测映射指对
∀
x
∈
R
,
{
ω
:
X
(
ω
)
≤
x
}
∈
A
\forall x \in \mathbb{R}, \{ \omega: X(\omega) \leq x \} \in \mathcal{A}
∀x∈R,{ω:X(ω)≤x}∈A,则由随机变量映射到的事件集为可测集。
3.2 随机变量的逆函数
对随机变量(r.v.)
X
X
X:
X
−
1
(
A
)
=
{
ω
∈
Ω
∣
X
(
ω
)
∈
A
}
(
A
⊂
R
)
X^{-1}(A)=\{ \omega \in \Omega | X(\omega) \in A \} \quad (A \subset \mathbb{R})
X−1(A)={ω∈Ω∣X(ω)∈A}(A⊂R) 由此,当我们采用概率测度去对事件集发生的概率进行度量时,可采用随机变量的逆对事件集进行替换,进而可定义随机变量的概率:
P
(
X
∈
A
)
:
=
P
(
X
−
1
(
A
)
)
(
=
P
(
ω
)
)
P(X \in A) : = P(X^{-1}(A)) (= P(\omega))
P(X∈A):=P(X−1(A))(=P(ω)) 因此,采用定义良好的随机变量可替代罗列事件的方式计算概率。
随机变量和随机变量的逆链接了样本空间和实数域。进一步,我们希望了解在整个定义域内各处
3.3 随机变量的分布函数(distribution function)
随机变量的分布函数最常见的有三个:累积分布函数(cumulative distribution function, c.d.f)、概率质量函数(probability mass func, p.m.f)和概率分布函数(probability distribution func, p.d.f)。阅读统计类书籍和论文时,上述缩写较常见。
CDF定义如下:
F
X
(
x
)
=
P
(
X
≤
x
)
F_{X}(x) = P(X \leq x)
FX(x)=P(X≤x)显然,CDF的定义域即实数集,而值域(也就是小于某实数的随机变量的概率大小)为[0, 1]。
CDF值得关注的性质是其右连续,则其具有右导数,且:
lim
Δ
x
→
0
F
(
x
+
Δ
x
)
−
F
(
x
)
Δ
x
=
P
(
x
)
\lim_{\Delta x \to 0} \frac{F(x+\Delta x)-F(x)}{\Delta x} = P(x)
Δx→0limΔxF(x+Δx)−F(x)=P(x)可见,由CDF可以求出PDF和PMF。
Lemma:
对随机变量X,其CDF为F;对随机变量Y,其CDF为G。如果对 ∀ x 有 F ( x ) = G ( x ) \forall x有F(x)=G(x) ∀x有F(x)=G(x),则 ∀ A 有 P X ( x ∈ A ) = P Y ( x ∈ A ) \forall A有P_{X}(x \in A)=P_{Y}(x \in A) ∀A有PX(x∈A)=PY(x∈A)
上述引理即是随机变量的依分布收敛。依分布收敛是学习概率论初期并不容易理解的一个概念。相较于几乎处处收敛(a.s.)和依概率测度收敛,两个随便变量依分布收敛意味着二者的CDF图像形状完全一致。然而,两个随机可能并不相等,比如若随机变量X的CDF关于x=0对称,随机变量X和(-X)的CDF形状相同,但显然二者不相等。
3.4 构成CDF的充要条件
F 是 C D F i . f . f ( 1 ) F 在 定 义 域 内 处 处 不 减 ( n o n − d e c r e a s i n g ) ( 2 ) F 为 归 一 化 ( n o r m a l i z e d ) 函 数 , 即 x → − ∞ 时 F ( x ) = 0 , x → + ∞ 时 F ( x ) = 1 ( 3 ) F 右 连 续 ( 可 采 用 数 学 分 析 中 区 间 套 定 理 的 类 似 证 明 方 式 进 行 证 明 ) \begin{aligned} &F是CDF \\ &\qquad i.f.f \\ &(1) F在定义域内处处不减(non-decreasing) \\ &(2) F为归一化(normalized)函数,即x \to -\infty时F(x)=0, x \to +\infty时F(x)=1 \\ &(3) F右连续 (可采用数学分析中区间套定理的类似证明方式进行证明) \end{aligned} F是CDFi.f.f(1)F在定义域内处处不减(non−decreasing)(2)F为归一化(normalized)函数,即x→−∞时F(x)=0,x→+∞时F(x)=1(3)F右连续(可采用数学分析中区间套定理的类似证明方式进行证明)对于这三条充要条件,需要重点关注的仍是第三条,即右连续。右连续保证了可采用3.3小节中的方法导出pdf或pmf。同时,在书写CDF的定义域时,也要注意写为左闭右开区间([a, b))。
例子引用自北大出版社何书元《概率论》 ↩︎