张志华-统计机器学习-概率论导论(续)

概率论导论(续)

上一节中,张志华老师对可测空间 ( Ω , A , P ) (\Omega, \mathcal{A}, P) (Ω,A,P)的建立进行了介绍。本节在已经建立可测空间的基础上,进一步对概率测度 P ( A i ) P(A_{i}) P(Ai)的性质进行了介绍。认为本节中的“事件集”均是可测集。

一. 概率测度的性质

1.1 单调性

对事件集A和B,当 A ⊂ B A \subset B AB,有: P ( A ) ≤ P ( B ) P(A) \leq P(B) P(A)P(B)
P ( B ) = P ( A ) + P ( A c ∩ B ) P(B) = P(A) + P(A^c \cap B) P(B)=P(A)+P(AcB)即证。

1.2 容斥原理(Jordan公式)

P ( A ∪ B ) = P ( A ) + P ( B ) − P ( A ∩ B ) P(A \cup B) = P(A) + P(B) - P(A \cap B) P(AB)=P(A)+P(B)P(AB)
容斥原理是概率论中最知名的定理之一,可进一步扩展至N个事件集的版本:
P ( ⋃ i = 1 n A i ) = ∑ i = 1 n P ( A i ) − ∑ i = 1 n − 1 ∑ j = i + 1 n P ( A i ∪ A j ) + . . . P(\bigcup_{i=1}^{n} A_{i}) = \sum_{i=1}^{n} P(A_{i}) - \sum_{i=1}^{n-1} \sum_{j=i+1}^{n} P(A_{i} \cup A_{j}) + ... P(i=1nAi)=i=1nP(Ai)i=1n1j=i+1nP(AiAj)+...对于两事件集的容斥原理,结合维恩图(Venn Diagram)易证。之后继续采用数学归纳法证明多事件集的容斥原理。

容斥原理的意义:应用容斥原理,可将一些较复杂的概率计算问题进行分解,逐步计算出某复杂事件集的概率。我们举个例子1:

设帽子有从1到n的编号,有n个人 a 1 a_{1} a1 a n a_{n} an需要取到对应编号的帽子。求至少有一人拿对自己的帽子的概率
解:(下面非最便捷的解法,仅为展示容斥原理)
设事件 A i A_{i} Ai表示第i人取到正确的帽子,则 ∪ i = 1 n A i \cup_{i=1}^{n} A_{i} i=1nAi为我们需要计算概率的事件,对应求解 P ( ∪ i = 1 n A i ) P(\cup_{i=1}^{n} A_{i}) P(i=1nAi)
P ( A i ) = ( n − 1 ) ! n ! \quad P(A_{i})=\frac{(n-1)!}{n!} P(Ai)=n!(n1)!
P ( A i A j ) = ( n − 2 ) ! n ! \quad P(A_{i}A_{j})=\frac{(n-2)!}{n!} P(AiAj)=n!(n2)!
. . . \quad ... ...
P ( A 1 A 2 . . . A n ) = 1 n ! \quad P(A_{1}A_{2}...A_{n})=\frac{1}{n!} P(A1A2...An)=n!1
之后代入Jordan公式中,由泰勒公式有即有 P ( ∪ i = 1 n A i ) = ∑ k = 1 n ( − 1 ) k − 1 k ! \quad P(\cup_{i=1}^{n} A_{i}) = \sum_{k=1}^{n} \frac{(-1)^{k-1}}{k!} P(i=1nAi)=k=1nk!(1)k1

可见,以上的较复杂的事件经分解再代入Jordan公式中较易计算。

1.3 概率测度的连续性(Continuity of Probability)

If lim ⁡ n → ∞ A n → A ⇒ P ( A n ) → P ( A ) \lim_{n \to \infty} A_{n} \to A \Rightarrow P(A_{n}) \to P(A) limnAnAP(An)P(A)
由可列可加性和单调性易证。

1.4 独立事件(Independent)

若事件A和事件B相互独立,则 P ( A B ) = P ( A ) P ( B ) P(AB)=P(A)P(B) P(AB)=P(A)P(B),否则有 P ( A B ) = P ( A ∣ B ) P ( B ) P(AB)=P(A|B)P(B) P(AB)=P(AB)P(B)

二. 条件概率和贝叶斯定理

贝叶斯公式是统计机器学习中最重要的公式之一,在参数估计中首先为参数赋予先验分布(prior)再进行计算的方法就来源于贝叶斯公式。历史上,贝叶斯在生前没有因这条公式而出名,在去世后贝叶斯公式才受到关注,也催生了之前介绍过的贝叶斯派统计学家。

2.1 条件概率(conditional probability)

假定P(B) > 0, 则 P ( A ∣ B ) = P ( A B ) P ( B ) P(A|B)=\frac {P(AB)}{P(B)} P(AB)=P(B)P(AB)。也容易发现,当A与B相互独立,有 P ( A ∣ B ) = P ( A ) P(A|B)=P(A) P(AB)=P(A)

2.2 贝叶斯定理(Bayes’ thereom)

首先,有全概率公式:
A 1 , A 2 , . . . , A i 是 样 本 空 间 Ω 的 划 分 ( P a r t i t i o n ) 对 事 件 集 B 有 : P ( B ) = ∑ i = 1 n P ( B ∣ A i ) P ( A i ) A_{1}, A_{2}, ..., A_{i}是样本空间\Omega的划分(Partition) \\ 对事件集B有: P(B)=\sum_{i=1}^{n}P(B|A_{i})P(A_{i}) A1,A2,...,AiΩ(Partition)B:P(B)=i=1nP(BAi)P(Ai)
则有贝叶斯公式:
P ( A i ∣ B ) = P ( B ∣ A i ) P ( A i ) P ( B ) P(Ai|B)=\frac{P(B|A_{i})P(A_{i})}{P(B)} P(AiB)=P(B)P(BAi)P(Ai)贝叶斯公式是后续最大后验估计(MAP)的理论基础,在机器学习领域能量巨大;另一方面,构造朴素贝叶斯分类器时,也以该公式为理论基础:随着训练样本的逐渐增加,根据大数定律, P ( B ∣ A i ) P(B|A_{i}) P(BAi) P ( A i ) P(A_{i}) P(Ai)都更加准确(i.e., 接近真实值),那么预测的准确度也自然提高。

三. 随机变量概述

3.1 随机变量的定义

在前述介绍中,我们对样本空间,以及如何对样本空间中的事件的发生概率进行测量。 然而,在处理实际问题时,每次都用语言表示事件十分繁琐,能否将事件映射到数值?随机变量(random variable)被定义为映射:
X : Ω → R X: \Omega \to \mathbb{R} X:ΩR
注:可测映射指对 ∀ x ∈ R , { ω : X ( ω ) ≤ x } ∈ A \forall x \in \mathbb{R}, \{ \omega: X(\omega) \leq x \} \in \mathcal{A} xR,{ω:X(ω)x}A,则由随机变量映射到的事件集为可测集。

3.2 随机变量的逆函数

对随机变量(r.v.) X X X
X − 1 ( A ) = { ω ∈ Ω ∣ X ( ω ) ∈ A } ( A ⊂ R ) X^{-1}(A)=\{ \omega \in \Omega | X(\omega) \in A \} \quad (A \subset \mathbb{R}) X1(A)={ωΩX(ω)A}(AR) 由此,当我们采用概率测度去对事件集发生的概率进行度量时,可采用随机变量的逆对事件集进行替换,进而可定义随机变量的概率:
P ( X ∈ A ) : = P ( X − 1 ( A ) ) ( = P ( ω ) ) P(X \in A) : = P(X^{-1}(A)) (= P(\omega)) P(XA):=P(X1(A))(=P(ω)) 因此,采用定义良好的随机变量可替代罗列事件的方式计算概率。

随机变量随机变量的逆链接了样本空间和实数域。进一步,我们希望了解在整个定义域内各处

3.3 随机变量的分布函数(distribution function)

随机变量的分布函数最常见的有三个:累积分布函数(cumulative distribution function, c.d.f)、概率质量函数(probability mass func, p.m.f)和概率分布函数(probability distribution func, p.d.f)。阅读统计类书籍和论文时,上述缩写较常见。

CDF定义如下:
F X ( x ) = P ( X ≤ x ) F_{X}(x) = P(X \leq x) FX(x)=P(Xx)显然,CDF的定义域即实数集,而值域(也就是小于某实数的随机变量的概率大小)为[0, 1]。
CDF值得关注的性质是其右连续,则其具有右导数,且:
lim ⁡ Δ x → 0 F ( x + Δ x ) − F ( x ) Δ x = P ( x ) \lim_{\Delta x \to 0} \frac{F(x+\Delta x)-F(x)}{\Delta x} = P(x) Δx0limΔxF(x+Δx)F(x)=P(x)可见,由CDF可以求出PDF和PMF。

Lemma
对随机变量X,其CDF为F;对随机变量Y,其CDF为G。如果对 ∀ x 有 F ( x ) = G ( x ) \forall x有F(x)=G(x) xF(x)=G(x),则 ∀ A 有 P X ( x ∈ A ) = P Y ( x ∈ A ) \forall A有P_{X}(x \in A)=P_{Y}(x \in A) APX(xA)=PY(xA)

上述引理即是随机变量的依分布收敛。依分布收敛是学习概率论初期并不容易理解的一个概念。相较于几乎处处收敛(a.s.)和依概率测度收敛,两个随便变量依分布收敛意味着二者的CDF图像形状完全一致。然而,两个随机可能并不相等,比如若随机变量X的CDF关于x=0对称,随机变量X和(-X)的CDF形状相同,但显然二者不相等。

3.4 构成CDF的充要条件

F 是 C D F i . f . f ( 1 ) F 在 定 义 域 内 处 处 不 减 ( n o n − d e c r e a s i n g ) ( 2 ) F 为 归 一 化 ( n o r m a l i z e d ) 函 数 , 即 x → − ∞ 时 F ( x ) = 0 , x → + ∞ 时 F ( x ) = 1 ( 3 ) F 右 连 续 ( 可 采 用 数 学 分 析 中 区 间 套 定 理 的 类 似 证 明 方 式 进 行 证 明 ) \begin{aligned} &F是CDF \\ &\qquad i.f.f \\ &(1) F在定义域内处处不减(non-decreasing) \\ &(2) F为归一化(normalized)函数,即x \to -\infty时F(x)=0, x \to +\infty时F(x)=1 \\ &(3) F右连续 (可采用数学分析中区间套定理的类似证明方式进行证明) \end{aligned} FCDFi.f.f(1)F(nondecreasing)(2)F(normalized)xF(x)=0,x+F(x)=1(3)F对于这三条充要条件,需要重点关注的仍是第三条,即右连续。右连续保证了可采用3.3小节中的方法导出pdf或pmf。同时,在书写CDF的定义域时,也要注意写为左闭右开区间([a, b))。


  1. 例子引用自北大出版社何书元《概率论》 ↩︎

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值