机器学习中概率论知识复习

最新推荐文章于 2022-01-13 14:46:39 发布

LastTrainHome

最新推荐文章于 2022-01-13 14:46:39 发布

阅读量1.5w

点赞数 22

分类专栏： Data Analysis

本文链接：https://blog.csdn.net/u012566895/article/details/51220127

版权

本文回顾了机器学习中概率论的基本概念，包括概率空间、随机变量、概率分布、期望与方差以及重要的分布，如伯努利、泊松和高斯分布。通过实例深入解释了概率论在机器学习中的应用，如链式法则、贝叶斯定理和概率处理技巧。

摘要由CSDN通过智能技术生成

机器学习先验知识概率论部分，发现看Machine Learning（－Andrew Ng）课程的时候中间有推导过程不是很明白，遂针对性复习。

知识内容组织结构，参考：《Probability Theory Review for Machine Learning》（Machine Learning－Andrew Ng，课程讲义复习笔记2）

内容补充，参考维基百科。

公式编辑参考：http://meta.math.stackexchange.com/questions/5020/mathjax-basic-tutorial-and-quick-reference

1 基本概念

概率论在机器学习中扮演着一个核心角色，因为机器学习算法的设计通常依赖于对数据的概率假设。

1.1 概率空间

说到概率，通常是指一个具有不确定性的event发生的可能性。例如，下周二下雨的概率。因此，为了正式地讨论概率论，我们首先要明确什么是可能事件。
正规说来，一个probability space是由三元组 $(\Omega,F,P)$ 定义：
- $\Omega$ 为样本空间
- $F\subseteq2^\Omega$ ( $\Omega$ 的幂集)为（可度量的）事件空间
- $P$ 为将事件 $E\in F$ 映射到0～1真值区间的概率度量（概率分布），可以将 $P$ 看作概率函数
注： $\Omega$ 的幂集 $2^\Omega$ ——是 $\Omega$ 的所有子集的集合，符号： $P(\Omega):=\{U|U\subseteq\Omega\}$ ， $|\Omega|=n$ 个元素， $|P(\Omega)|=2^n$ 个元素。

假设给定样本空间 $\Omega$ ，则对于事件空间 $F$ 来说：
- $F$ 包含 $\Omega$ 本身和 $\emptyset$
- $F$ 对于并集闭合，例如：如果 $\alpha,\beta\in F$ ，则 $\alpha\cup\beta\in F$
- $F$ 对于补集闭合，例如：如果 $\alpha\in F$ ，则 $(\Omega\setminus\alpha)\in F$

Example1: 假如我们投掷一个（6面）骰子，那么可能的样本空间 $\Omega=\{1,2,3,4,5,6\}$ 。我们可能感兴趣的事件是骰子点数是奇数还是偶数，那么这种情况下事件空间就是 $F=\{\emptyset,\{1,3,5\},\{2,4,6\}\}$ .

可以看到样本空间 $\Omega$ 为有限集时，就像上一个例子，我们通常令事件空间 $F$ 为 $2^\Omega$ 。这种策略并不完全通用，但是在实际使用中通常是有效的。然而，当样本空间为无限集时，我们需要仔细定义事件空间。
给定一个事件空间 $F$ ，概率函数 $P$ 需要满足几个公理：
- （非负）对于所有 $\alpha\in F,P(\alpha)\ge0$
- $P(F)=1$ ，事件空间的概率值为1
- （互斥事件的加法法则）对于所有 $\alpha,\beta\in F和\alpha\cap\beta=\emptyset,P(\alpha\cup\beta)=P(\alpha)+P(\beta)$

Example2: 回到掷骰子的例子，假设事件空间 $F$ 为 $2^\Omega$ ，进一步地，定义 $F$ 上的概率函数 $P$ 为：
$P(\{1\})=P(\{2\})=…=P(\{6\})=\frac 16$
那么这种概率分布 $P$ 可以完整定义任意给出事件的发生概率（通过可加性公理）。例如，投掷点数为偶数的概率为：
$P(\{2,4,6\})=P(\{2\})+P(\{4\})+P(\{6\})=\frac 16+\frac 16+\frac 16=\frac 12$
因为任意事件（此处指样本空间内的投掷出各点数）之间都没有交集

1.2 随机变量

随机变量在概率论中扮演着一个重要角色。最重要的一个事实是，随机变量并不是变量，它们实际上是将（样本空间中的）结果映射到真值的函数。我们通常用一个大写字母来表示随机变量。
Example3: 还是以掷骰子为例。另 $X$ 为取决于投掷结果的随机变量。 $X$ 的一个自然选择是将 $i$ 映射到值 $i$ ，例如，将事件“投掷1点”映射到值1。我们也可以选择一些特别的映射，例如，我们有一个随机变量 $Y$ ——将所有的结果映射到0，这就是一个很无聊的函数。或者随机变量 $Z$ ——当 $i$ 为奇数时，将结果 $i$ 映射到 $2^i$ ；当 $i$ 为偶数时，将结果 $i$ 映射到 $i$ 。

从某种意义上说，随机变量让我们可以将事件空间的形式概念抽象出来，通过定义随机变量来采集相关事件。举个例子，考虑Example1中投掷点数为奇／偶的事件空间。我们其实可以定义一个随机变量，当结果 $i$ 为奇数时取值为1，否则随机变量取值为0。这种二元算计变量在实际中非常常见，通常以指示变量为人所知，它是因用于指示某一特定事件是否发生而得名。所以为什么我们要引进事件空间？就是因为当一个人在学习概率论（更严格来说）通过计量理论来学习时，样本空间和事件空间的区别非常重要。这个话题对于这个简短的复习来说太前沿了，因此不会涉及。不管怎样，最好记住事件空间并不总是简单的样本空间的幂集。
继续，我们后面主要会讨论关于随机变量的概率。虽然某些概率概念在不使用随机变量的情况下也能准确定义，但是随机变量让我们能提供一种对于概率论的更加统一的处理方式。取值为 $a$ 的随机变量 $X$ 的概率可以记为：

P (X = a) 或 P X (a)

$P(X=a) 或 P_X(a)$
同时，我们将随机变量

X $X$ 的取值范围记为：

Val(X) $V al(X)$

1.3 概率分布，联合分布，边缘分布

我们经常会谈论变量的分布。正式来说，它是指一个随机变量取某一特定值的概率，例如：
Example4：假设在投掷一个骰子的样本空间 $\Omega$ 上定义一个随机变量 $X$ ，如果骰子是均匀的，则 $X$ 的分布为：
$P_X(1)=P_X(2)=…=P_X(6)=\frac 16$
注意，尽管这个例子和Example2类似，但是它们有着不同的语义。Example2中定义的概率分布是对于事件而言，而这个例子中是随机变量的概率分布。
我们用 $P(X)$ 来表示随机变量 $X$ 的概率分布。
有时候，我们会同时讨论大于一个变量的概率分布，这种概率分布称为联合分布，因为此事的概率是由所涉及到的所有变量共同决定的。这个可以用一个例子来阐明。
Example5：在投掷一个骰子的样本空间上定义一个随机变量 $X$ 。定义一个指示变量 $Y$ ，当抛硬币结果为正面朝上时取1，反面朝上时取0。假设骰子和硬币都是均匀的，则 $X$ 和 $Y$ 的联合分布如下：