张志华-统计机器学习-概率论导论(续)

最新推荐文章于 2022-03-26 22:41:00 发布

Steve_Huxtable

最新推荐文章于 2022-03-26 22:41:00 发布

阅读量620

点赞数

分类专栏：统计机器学习

本文链接：https://blog.csdn.net/hdyshr/article/details/107979766

版权

统计机器学习专栏收录该内容

5 篇文章 13 订阅

订阅专栏

文章目录

概率论导论（续）

概率论导论（续）

上一节中，张志华老师对可测空间 $(\Omega, \mathcal{A}, P)$ 的建立进行了介绍。本节在已经建立可测空间的基础上，进一步对概率测度 $P(A_{i})$ 的性质进行了介绍。认为本节中的“事件集”均是可测集。

一. 概率测度的性质

1.1 单调性

对事件集A和B，当 $\subset B$ ，有： $\leq P(B)$
由 $P(A^c \cap B)$ 即证。

1.2 容斥原理(Jordan公式)

$\cup B) = P(A) + P(B) - P(A \cap B)$
容斥原理是概率论中最知名的定理之一，可进一步扩展至N个事件集的版本：
$P(\bigcup_{i=1}^{n} A_{i}) = \sum_{i=1}^{n} P(A_{i}) - \sum_{i=1}^{n-1} \sum_{j=i+1}^{n} P(A_{i} \cup A_{j}) + ...$ 对于两事件集的容斥原理，结合维恩图（Venn Diagram）易证。之后继续采用数学归纳法证明多事件集的容斥原理。

容斥原理的意义：应用容斥原理，可将一些较复杂的概率计算问题进行分解，逐步计算出某复杂事件集的概率。我们举个例子¹:

设帽子有从1到n的编号，有n个人 $a_{1}$ 到 $a_{n}$ 需要取到对应编号的帽子。求至少有一人拿对自己的帽子的概率？
解：(下面非最便捷的解法，仅为展示容斥原理)
设事件 $A_{i}$ 表示第i人取到正确的帽子，则 $∪i=1nAi \cup_{i=1}^{n} A_{i}$ 为我们需要计算概率的事件，对应求解 $P(\cup_{i=1}^{n} A_{i})$ 。
$\quad P(A_{i})=\frac{(n-1)!}{n!}$
$\quad P(A_{i}A_{j})=\frac{(n-2)!}{n!}$
$\quad ...$
$\quad P(A_{1}A_{2}...A_{n})=\frac{1}{n!}$
之后代入Jordan公式中，由泰勒公式有即有 $\quad P(\cup_{i=1}^{n} A_{i}) = \sum_{k=1}^{n} \frac{(-1)^{k-1}}{k!}$

可见，以上的较复杂的事件经分解再代入Jordan公式中较易计算。

1.3 概率测度的连续性（Continuity of Probability）

If $\lim_{n \to \infty} A_{n} \to A \Rightarrow P(A_{n}) \to P(A)$
由可列可加性和单调性易证。

1.4 独立事件（Independent）

若事件A和事件B相互独立，则 $P (A B) = P (A) P (B)$ ，否则有 $P (A B) = P (A ∣ B) P (B)$ 。

二. 条件概率和贝叶斯定理

贝叶斯公式是统计机器学习中最重要的公式之一，在参数估计中首先为参数赋予先验分布（prior）再进行计算的方法就来源于贝叶斯公式。历史上，贝叶斯在生前没有因这条公式而出名，在去世后贝叶斯公式才受到关注，也催生了之前介绍过的贝叶斯派统计学家。

2.1 条件概率（conditional probability）

假定P(B) > 0, 则 $P(A|B)=\frac {P(AB)}{P(B)}$ 。也容易发现，当A与B相互独立，有 $P (A ∣ B) = P (A)$ 。

2.2 贝叶斯定理（Bayes’ thereom）

首先，有全概率公式：
$A_{1}, A_{2}, ..., A_{i}是样本空间\Omega的划分(Partition) \\ 对事件集B有: P(B)=\sum_{i=1}^{n}P(B|A_{i})P(A_{i})$
则有贝叶斯公式：
$P(Ai|B)=\frac{P(B|A_{i})P(A_{i})}{P(B)}$ 贝叶斯公式是后续最大后验估计(MAP)的理论基础，在机器学习领域能量巨大；另一方面，构造朴素贝叶斯分类器时，也以该公式为理论基础：随着训练样本的逐渐增加，根据大数定律， $P(B|A_{i})$ 和 $P(A_{i})$ 都更加准确（i.e., 接近真实值），那么预测的准确度也自然提高。

三. 随机变量概述

3.1 随机变量的定义

在前述介绍中，我们对样本空间，以及如何对样本空间中的事件的发生概率进行测量。然而，在处理实际问题时，每次都用语言表示事件十分繁琐，能否将事件映射到数值？随机变量(random variable)被定义为映射：
$\Omega \to \mathbb{R}$
注：可测映射指对 $\forall x \in \mathbb{R}, \{ \omega: X(\omega) \leq x \} \in \mathcal{A}$ ，则由随机变量映射到的事件集为可测集。

3.2 随机变量的逆函数

对随机变量（r.v.） $X$ ：
$X^{-1}(A)=\{ \omega \in \Omega | X(\omega) \in A \} \quad (A \subset \mathbb{R})$ 由此，当我们采用概率测度去对事件集发生的概率进行度量时，可采用随机变量的逆对事件集进行替换，进而可定义随机变量的概率：
$\in A) : = P(X^{-1}(A)) (= P(\omega))$ 因此，采用定义良好的随机变量可替代罗列事件的方式计算概率。

随机变量和随机变量的逆链接了样本空间和实数域。进一步，我们希望了解在整个定义域内各处

3.3 随机变量的分布函数(distribution function)

随机变量的分布函数最常见的有三个：累积分布函数（cumulative distribution function, c.d.f）、概率质量函数（probability mass func, p.m.f）和概率分布函数（probability distribution func, p.d.f）。阅读统计类书籍和论文时，上述缩写较常见。

CDF定义如下：
$F_{X}(x) = P(X \leq x)$ 显然，CDF的定义域即实数集，而值域（也就是小于某实数的随机变量的概率大小）为[0, 1]。
CDF值得关注的性质是其右连续，则其具有右导数，且：
$\lim_{\Delta x \to 0} \frac{F(x+\Delta x)-F(x)}{\Delta x} = P(x)$ 可见，由CDF可以求出PDF和PMF。

Lemma：
对随机变量X，其CDF为F；对随机变量Y，其CDF为G。如果对 $\forall x有F(x)=G(x)$ ，则 $\forall A有P_{X}(x \in A)=P_{Y}(x \in A)$

上述引理即是随机变量的依分布收敛。依分布收敛是学习概率论初期并不容易理解的一个概念。相较于几乎处处收敛(a.s.)和依概率测度收敛，两个随便变量依分布收敛意味着二者的CDF图像形状完全一致。然而，两个随机可能并不相等，比如若随机变量X的CDF关于x=0对称，随机变量X和（-X）的CDF形状相同，但显然二者不相等。

3.4 构成CDF的充要条件

$\begin{aligned} &F是CDF \\ &\qquad i.f.f \\ &(1) F在定义域内处处不减(non-decreasing) \\ &(2) F为归一化(normalized)函数，即x \to -\infty时F(x)=0, x \to +\infty时F(x)=1 \\ &(3) F右连续（可采用数学分析中区间套定理的类似证明方式进行证明） \end{aligned}$ 对于这三条充要条件，需要重点关注的仍是第三条，即右连续。右连续保证了可采用3.3小节中的方法导出pdf或pmf。同时，在书写CDF的定义域时，也要注意写为左闭右开区间([a, b))。