机器学习概率论基础

最新推荐文章于 2022-09-28 14:50:20 发布

june_francis

最新推荐文章于 2022-09-28 14:50:20 发布

阅读量828

点赞数

文章标签：机器学习概率论

原文链接：https://mp.weixin.qq.com/s?__biz=MzIwODI2NDkxNQ==&mid=2247485293&idx=2&sn=2650e61d6268f667333e86cb52ab1df1&chksm=97048cd1a07305c73229a0b3daf887ac4960fcbd3f378bbc0b40b9b38203fca387b29218fcbd&mpshare=1&scene=1&srcid=1031StuVcXZZMwHRiIucv0M3&sharer_sharetime

版权

前言

一些数学理论，感觉在用到的时候才方显胸中无墨，大学时学习的知识早就已原封不动的还给老师了，况且那个时候更多是用于通过期末考试。偶然看到一篇很好的文章，在这里copy一份，方便自己和广大同胞今后翻阅！

首先得在此非常感谢原创博主黄海广博士整理出了如此详细的技术文章，鄙人在原文的基础上做了些微改动（修改了一些符号上的小错误）。原文出处：
首发：吴恩达的 CS229的数学基础（概率论），有人把它做成了在线翻译版本！

正文

一、概率的基本要素

为了定义集合上的概率，我们需要一些基本元素：

样本空间 $Ω$ ：随机实验的所有结果的集合。在这里，每个结果 $\in Ω$ 可以被认为是实验结束时现实世界状态的完整描述。
事件集（事件空间） $\mathcal{F}$ ：元素 $\in \mathcal{F}$ 的集合（称为事件）是 $Ω$ 的子集（即每个 $\subseteq Ω$ 是一个实验可能结果的集合）。
备注： $\mathcal{F}$ 需要满足以下三个条件：
① $\emptyset \in \mathcal{F}$
② $\in \mathcal{F} \Rightarrow Ω \setminus A \in \mathcal{F}$ ，其中 $\setminus A$ 表示 $A$ 在 $Ω$ 中的补集。
③ $A_1, A_2, ..., A_i \in \mathcal{F} \Rightarrow \cup_iA_i \in \mathcal{F}$ ，其中 $∪iAi \cup_iA_i$ 表示 { $A_i$ 中有任何一个事件发生}这个事件，相反， $∩iAi \cap_iA_i$ 则表示{ $A_i$ 中所有事件都发生}这个事件。

概率度量 $P$ ：函数 $P$ 是一个 $\mathcal{F} \rightarrow \mathbb{R}$ 的映射，满足以下性质：
① 对于每个 $\in \mathcal{F}$ ， $\geqslant 0$
② $P (Ω) = 1$
③ 如果 $A_1, A_2, ...$ 是互不相交的事件（即当 $\neq j$ 时， $A_i \cap A_j = \emptyset$ ），那么（ n 个事件发生的概率等于这些事件单独发生时概率的加和）：
$P(\cup_iA_i) = \sum_i P(A_i)$

以上三条性质被称为概率公理。

举例：
考虑投掷六面骰子的事件。样本空间为 $Ω = \{1, 2, 3, 4, 5, 6\}$
。最简单的事件空间是平凡事件空间 $\mathcal{F} = \{\emptyset, Ω\}$ 。另一个事件空间是 $Ω$ 的所有子集的集合。对于第一个事件空间，满足上述要求的唯一概率度量由 $P(\emptyset) = 0, P(Ω) = 1$ 给出。对于第二个事件空间，一个有效的概率度量是将事件空间中每个事件的概率分配为 $i / 6$ ，这里 $i$ 是这个事件集合中元素的数量；例如 $P(\{1, 2, 3, 4\}) = 4/6, P(\{1, 2, 3\}) = 3/6$ 。

性质：

如果 $\subseteq B$ ，则： $\leqslant P(B)$
$\cap B) \leqslant min(P(A), P(B))$
（布尔不等式）： $\cup B) \leqslant P(A) + P(B)$
$P (Ω ∣ A) = 1 - P (A)$
（全概率定律）：如果 $A_1, A_2, ..., A_k$ 是一些互不相交的事件并且他们的并集是 $Ω$ ，那么他们的概率之和是 $1$ 。

1.1 条件概率和独立性

假设 $B$ 是一个概率非 0 的事件，我们定义在给定 $B$ 的条件下 $A$ 的条件概率为：
$\frac{P(A \cap B)}{P(B)}$
换句话说， $P (A ∣ B)$ 是度量已经观测到事件 $B$ 发生的情况下事件 $A$ 发生的概率，两个事件被称为独立事件当且仅当 $\cap B) = P(A)P(B)$ （或等价地， $P (A ∣ B) = P (A)$ )。因此，独立性相当于是说观察到事件 $B$ 对于事件 $A$ 的概率没有任何影响。

二、随机变量

考虑一个实验，我们翻转 10 枚硬币，我们想知道正面硬币的数量。这里，样本空间 $Ω$ 的元素是长度为 10 的序列。例如，我们可能有 $\omega_0 = \{ H, H, T, H, T, H, H, T, T, T\} \in Ω$ 。然而，在实践中，我们通常不关心获得任何特定正反序列的概率。相反，我们通常关心结果的实值函数，比如我们 10 次投掷中出现的正面数，或者最长的背面长度。在某些技术条件下，这些函数被称为随机变量。

更正式地说，随机变量 $X$ 是一个 $\rightarrow \mathbb{R}$ 的函数。通常，我们将使用大写字母 $X(\omega)$ 或更简单的 $X$ (其中隐含对随机结果 $\omega$ 的依赖)来表示随机变量。我们将使用小写字母 $x$ 来表示随机变量的值。

举例：
在我们上面的实验中，假设 $X(\omega)$ 是在投掷序列 $\omega$ 中出现的正面的数量。假设投掷的硬币只有 10 枚，那么 $X(\omega)$ 只能取有限数量的值，因此它被称为离散随机变量。这里，与随机变量 $X$ 相关联的集合取某个特定值 $k$ 的概率为：
$\coloneqq P(\{\omega \colon X(\omega) = k\})$

举例：
假设 $X(\omega)$ 是一个随机变量，表示放射性粒子衰变所需的时间。在这种情况下， $X(\omega)$ 具有无限多的可能值，因此它被称为连续随机变量。我们将 $X$ 在两个实常数 $a$ 和 $b$ 之间取值的概率(其中 $\lt b$ )表示为：
$\leq X \leq b) \coloneqq P(\{\omega \colon a \leq X(\omega) \leq b\})$

2.1 累计分布函数

为了指定处理随机变量时使用的概率度量，通常可以方便地指定替代函数( CDF 、PDF 和 PMF )，在本节和接下来的两节中，我们将依次描述这些类型的函数。

累积分布函数（Cumulative Distribution Function）是函数 $F_X \colon \mathbb{R} \rightarrow [0, 1]$ ，它将概率度量指定为：
$F_X(x) = P(X \leq x)$

通过使用这个函数，我们可以计算任意事件发生的概率。图 1 显示了一个样本 CDF 函数。
111
性质：

$\leq F_X(x) \leq 1$
$\lim_{x \to -\infty} F_X(x) = 0$
$\lim_{x \to +\infty} F_X(x) = 1$
$\leq y \Rightarrow F_X(x) \leq F_X(y)$

2.2 概率质量函数

当随机变量 $X$ 取有限种可能值(即， $X$ 是离散随机变量)时，表示与随机变量相关联的概率度量的更简单的方法是直接指定随机变量可以假设的每个值的概率。特别地，概率质量函数( Probability Mass Function )是函数 $p_X \colon Ω \rightarrow \mathbb{R}$ ，这样：
$p_X(x) = P(X = x)$

在离散随机变量的情况下，我们使用符号 $V a l (X)$ 表示随机变量 $X$ 可能假设的一组可能值。例如，如果 $X(\omega)$ 是一个随机变量，表示十次投掷硬币中的正面数，那么：
$Val(X) = \{0, 1, 2, ..., 10\}$

性质：

$\leq p_X(x) \leq 1$
$\sum_{x \in Val(X)} p_X(x) = 1$
$\sum_{x \in A} p_X(x) = P(x \in A)$

2.3 概率密度函数

对于一些连续随机变量，在累积分布函数 $F_X(x)$ 处可微。在这些情况下，我们将概率密度函数( Probability Density Function )定义为累积分布函数的导数，即：
$f_X(x) = \frac{dF_X(x)}{dx}$

请注意，连续随机变量的概率密度函数可能并不总是存在的(即，如果它不是处处可微)。

根据微分的性质，对于很小的 $\Delta x$ ，有：
$\leq X \leq x + \Delta x) \approx f_X(x)\Delta x$

CDF 和 PDF (当它们存在时！)都可用于计算不同事件的概率。但是应该强调的是，任意给定点的概率密度函数(PDF)的值不是该事件的概率，即 $f_X(x) \neq P(X = x)$ 。例如， $f_X(x)$ 可以取大于 1 的值(但是 $f_X(x)$ 在 $\mathbb{R}$ 的任何子集上的积分最多为 1)。

性质：

$f_X(x) \geq 0$
$\int_{-\infty}^{+\infty} f_X(x) = 0$
$\int_{x \in A} f_X(x) = P(X \in A)$

2.4 期望

假设 $X$ 是一个离散随机变量，其PMF为 $p_X(x)$ ， $\colon \mathbb{R} \rightarrow \mathbb{R}$ 是一个任意函数。在这种情况下， $g (X)$ 可以被视为随机变量，我们将 $g (X)$ 的期望值定义为：
$\sum_{x \in Val(X)} g(x)p_X(x)$

如果 $X$ 是一个连续的随机变量，其PDF为 $f_X(x)$ ，那么 $g (X)$ 的期望值被定义为：
$\int_{-\infty}^{+\infty} g(x)f_X(x)dx$

直觉上， $g (X)$ 的期望值可以被认为是 $g (x)$ 对于不同的 $x$ 值可以取的值的“加权平均值”，其中权重由 $p_X(x)$ 或 $f_X(x)$ 给出。作为上述情况的特例，请注意，随机变量本身的期望值，是通过令 $g (x) = x$ 得到的，这也被称为随机变量的平均值。

性质：

对于任意常数 $\in \mathbb{R}$ ， $E [a] = a$
对于任意常数 $\in \mathbb{R}$ ， $E [a f (X)] = a E [f (X)]$
（线性期望）： $E [f (X) + g (X)] = E [f (X)] + E [g (X)]$
对于一个离散随机变量 $X$ ， $E[1\{X = k\}] = P(X = k)$

2.5 方差

随机变量 $X$ 的方差是随机变量 $X$ 的分布围绕其平均值集中程度的度量。形式上，随机变量 $X$ 的方差定义为：
$Var[X] = E[(X - E[X])^2]$

使用上一节中的性质，我们可以导出方差的替代表达式：
$E[(X - E[X])^2] = E[X^2 -2E[X]X + E[X]^2]$
$E[X^2] - 2E[X]E[X] + E[X]^2$
$E[X^2] - E[X]^2$

其中第二个等式来自期望的线性，以及 $E [X]$ 相对于外层期望实际上是常数的事实。

性质：

对于任意常数 $\in \mathbb{R}$ ， $V a r [a] = 0$
对于任意常数 $\in \mathbb{R}$ ， $Var[af(X)] = a^2Var[f(X)]$

举例：
计算均匀随机变量 $X$ 的平均值和方差，任意 $\in [0, 1]$ ，其PDF为 $p_X(x) = 1$ ，其他地方为 0 。如：
$\int_{-\infty}^{+\infty} xf_X(x)dx = \int_{0}^{1} xdx = \frac{1}{2}$
$E[X^2] = \int_{-\infty}^{+\infty} x^{2}f_X(x)dx = \int_{0}^{1} x^{2}dx = \frac{1}{3}$
$E[X^2] - E[X]^2 = \frac{1}{3} - (\frac{1}{2})^2 = \frac{1}{12}$

举例：
假设对于一些子集 $\subseteq Ω$ ，有 $1\{x \in A\}$ ，计算 $E [g (X)]$ ?
离散情况：
$\sum_{x \in Val(X)} 1\{x \in A\}p_X(x)dx = \sum_{x \in A} p_X(x)dx = P(x \in A)$

连续情况：
$\int_{-\infty}^{+\infty} 1\{x \in A\}f_X(x)dx = \int_{x \in A} f_X(x)dx = P(x \in A)$

2.6 一些常见的随机变量

离散随机变量

伯努利分布：硬币掷出正面的概率为 $p$ （其中： $\leq p \leq 1$ ），如果正面发生，则为 1 ，否则为 0 。
$\begin{cases} p, & \text{if $p$ = 1} \\ 1 - p, & \text{if $p$ = 0} \end{cases}$
二项式分布：掷出正面概率为 $p$ （其中： $\leq p \leq 1$ ）的硬币 $n$ 次独立投掷中正面的数量。
$\binom{n}{x} p^{x} (1-p)^{n-x}$
几何分布：掷出正面概率为 $p$ （其中： $\gt 0$ ）的硬币第一次掷出正面所需要的次数。
$p(x) = p (1-p)^{n - 1}$
泊松分布：用于模拟罕见事件频率的非负整数的概率分布（其中： $\lambda \gt 0$ ）。
$exp^{-\lambda} \frac{\lambda^{x}}{x!}$

连续随机变量

均匀分布：在 $a$ 和 $b$ 之间每个点概率密度相等的分布（其中： $\leq b$ ）。
$\begin{cases} \frac{1}{b - a}, & \text{if $a \leq x \leq b$} \\ 0, & \text{otherwise} \end{cases}$
指数分布：在非负实数上有衰减的概率密度（其中： $\lambda \gt 0$ ）。
$\begin{cases} \lambda exp^{-\lambda x}, & \text{if $x \geq 0$} \\ 0, & \text{otherwise} \end{cases}$
正态分布：又被称为高斯分布(Gaussian Distribution)。
$\frac{1}{\sqrt{2\pi}\sigma} exp^{-\frac{(x - \mu)^2}{2\sigma^2}}$

一些随机变量的概率密度函数和累积分布函数的形状如图 2 所示：
222
下表总结了这些分布的一些特性：
333

三、两个随机变量

到目前为止，我们已经考虑了单个随机变量。然而，在许多情况下，在随机实验中，我们可能有不止一个感兴趣的量。例如，在一个我们掷硬币 10 次的实验中，我们可能既关心 $X(\omega)$ 出现的正面数量，也关心 $Y(\omega)$ 连续最长出现正面的长度。在本节中，我们考虑两个随机变量的设置。

3.1 联合分布和边缘分布

假设我们有两个随机变量，一个方法是分别考虑它们。如果我们这样做，我们只需要 $F_X(x)$ 和 $F_Y(y)$ 。但是如果我们想知道在随机实验的结果中， $X$ 和 $Y$ 同时假设的值，我们需要一个更复杂的结构，称为 $X$ 和 $Y$ 的联合累积分布函数，定义如下：
$F_{XY}(x, y) = P(X \leq x, Y \leq y)$

可以证明，通过了解联合累积分布函数，可以计算出任何涉及到 $X$ 和 $Y$ 的事件的概率。

联合CDF: $F_{XY}(x, y)$ 和每个变量的联合分布函数 $F_X(x)$ 和 $F_Y(y)$ 分别由下式关联：
$F_X(x) = \lim_{y \to \infty} F_{XY}(x, y)dy$
$F_Y(y) = \lim_{x \to \infty} F_{XY}(x, y)dx$

这里我们称 $F_X(x)$ 和 $F_Y(y)$ 为 $F_{XY}(x, y)$ 的边缘累积概率分布函数。

性质：

$\leq F_{XY}(x, y) \leq 1$
$\lim_{x,y \to +\infty} F_{XY}(x, y) = 1$
$\lim_{x,y \to -\infty} F_{XY}(x, y) = 0$
$F_X(x) = \lim_{y \to \infty} F_{XY}(x, y)$

3.2 联合概率和边缘概率质量函数

如果 $X$ 和 $Y$ 是两个离散随机变量，那么联合概率质量函数 $p_{XY} \colon \mathbb{R} \times \mathbb{R} \rightarrow [0, 1]$ 由下式定义：
$p_{XY}(x, y) = P(X = x, Y = y)$

这里, 对于任意 $x$ , $y$ ， $\leq p_{XY}(x, y) \leq 1$ , 并且 $\sum_{x \in Val(X)} \sum_{y \in Val(Y)} p_{XY}(x, y) = 1$ 。

两个变量上的联合 PMF分别与每个变量的概率质量函数有什么关系？事实上：
$p_X(x) = \sum_{y} p_{XY}(x, y)$

对于 $p_Y(y)$ 类似。在这种情况下，我们称 $p_X(x)$ 为 $X$ 的边缘概率质量函数。在统计学中，将一个变量相加形成另一个变量的边缘分布的过程通常称为“边缘化”。

3.3 联合概率和边缘概率密度函数

假设 $X$ 和 $Y$ 是两个连续的随机变量，具有联合分布函数 $F_{XY}$ 。在 $F_{XY}(x, y)$ 在 $x$ 和 $y$ 中处处可微的情况下，我们可以定义联合概率密度函数：
$f_{XY}(x, y) = \frac{\partial^2 F_{XY}(x, y)}{\partial{x} \partial{y}}$

如同在一维情况下， $F_{XY}(x, y) \neq P(X = x, Y = y)$ ，而是：
$\int_{y \in A} \int_{x \in A} f_{XY}(x, y)dxdy = P((X, Y) \in A)$

请注意，概率密度函数 $f_{XY}(x, y)$ 的值总是非负的，但它们可能大于 1 。尽管如此，可以肯定的是 $\int_{-\infty}^{+\infty} \int_{-\infty}^{+\infty} f_{XY}(x, y)dxdy = 1$ 。

与离散情况相似，我们定义：
$f_X(x) = \int_{-\infty}^{+\infty} f_{XY}(x, y)dy$

作为 $X$ 的边缘概率密度函数(或边缘密度)，对于 $f_Y(y)$ 也类似。

3.4 条件概率分布

条件概率分布试图回答这样一个问题：当我们知道 $X$ 必须取某个值 $x$ 时， $Y$ 上的概率分布是什么？在离散情况下，给定 $Y$ 的条件概率质量函数是简单的：
$p_{Y|X}(y|x) = \frac{p_{XY}(x, y)}{p_X(x)}$

假设分母不等于 0 。

在连续的情况下，在技术上要复杂一点，因为连续随机变量的概率等于零。忽略这一技术点，我们通过类比离散情况，简单地定义给定 $X = x$ 的条件概率密度为：
$f_{Y|X}(y|x) = \frac{f_{XY}(x, y)}{f_X(x)}$

假设分母不等于 0 。

3.5 贝叶斯定理

当试图推导一个变量给定另一个变量的条件概率表达式时，经常出现的一个有用公式是贝叶斯定理。

对于离散随机变量 $X$ 和 $Y$ ：
$P_{Y|X}(y|x) = \frac{P_{XY}(x, y)}{P_X(x)} = \frac{P_{X|Y}(x|y)P_Y(y)}{\sum_{y^{'} \in Y} P_{X|Y}(x|y^{'})P_Y(y^{'})dy^{'}}$

对于连续随机变量和 $X$ 和 $Y$ ：
$f_{Y|X}(y|x) = \frac{f_{XY}(x, y)}{f_X(x)} = \frac{f_{X|Y}(x|y)f_Y(y)}{\int_{-\infty}^{+\infty} f_{X|Y}(x|y^{'})f_Y(y^{'})dy^{'}}$

3.6 独立性

如果对于 $X$ 和 $Y$ 的所有值， $F_{XY}(x, y) = F_X(x)F_Y(y)$ ，则两个随机变量 $X$ 和 $Y$ 是独立的。等价地：

对于离散随机变量，对于任意 $\in Val(X)$ , $\in Val(Y)$ ，有 $p_{XY}(x, y) = p_X(x)p_Y(y)$ 。
对于离散随机变量，对于任意 $\in Val(Y)$ 且 $p_X(x) \neq 0$ ，有 $p_{Y|X}(y|x) = p_Y(y)$ 。
对于连续随机变量, 对于任意 $\in \mathbb{R}$ ，有 $f_{XY}(x, y) = f_X(x)f_Y(y)$ 。
对于连续随机变量, 对于任意 $\in \mathbb{R}$ 且 $f_X(x) \neq 0$ ，有 $f_{Y|X}(y|x) = f_Y(y)$ 。

非正式地说，如果“知道”一个变量的值永远不会对另一个变量的条件概率分布有任何影响，那么两个随机变量和是独立的，也就是说，你只要知道 $f (x)$ 和 $f (y)$ 就知道关于这对变量 $X$ 和 $Y$ 的所有信息。以下引理将这一观察形式化：
引理：
如果 $X$ 和 $Y$ 是独立的，那么对于任何 $\subseteq \mathbb{R}$ ，我们有：
$\in A, Y \in B) = P(X \in A)P(Y \in B)$

利用上述引理，我们可以证明如果 $X$ 与 $Y$ 无关，那么 $X$ 的任何函数都与 $Y$ 的任何函数无关。

3.7 期望和协方差

假设我们有两个离散的随机变量 $X$ 和 $Y$ ，并且 $\colon \mathbf{R}^2 \rightarrow \mathbf{R}$ 是这两个随机变量的函数。那么 $g$ 的期望值以如下方式定义：
$\sum_{x \in Val(X)} \sum_{y \in Val(Y)} g(x, y)p_{XY}(x, y)$

对于连续随机变量 $X$ 和 $Y$ ，类似的表达式是：
$\int_{-\infty}^{+\infty} \int_{-\infty}^{+\infty} g(x, y)f_{XY}(x, y)dxdy$

我们可以用期望的概念来研究两个随机变量之间的关系。特别地，两个随机变量的协方差定义为：
$C o v [X, Y] = E [(X - E [X]) (Y - E [Y])]$

使用类似于方差的推导，我们可以将它重写为：
$C o v [X, Y] = E [(X - E [X]) (Y - E [Y])]$
$= E [X Y - X E [Y] - E [X] Y + E [X] E [Y]]$
$= E [X Y] - E [X] E [Y] - E [X] E [Y] + E [X] E [Y]$
$= E [X Y] - E [X] E [Y]$

在这里，说明两种协方差形式相等的关键步骤是第三个等号，在这里我们使用了这样一个事实，即 $E [X]$ 和 $E [Y]$ 实际上是常数，可以被提出来。当 $C o v [X, Y] = 0$ 时，我们说 $X$ 和 $Y$ 不相关。

性质：

（期望线性）： $E [f (x, y) + g (x, y)] = E [f (x, y)] + E [g (x, y)]$
$V a r [X + Y] = V a r [X] + V a r [Y] + 2 C o v [X, Y]$
如果 $X$ 和 $Y$ 相互独立, 那么 $C o v [X, Y] = 0$
如果 $X$ 和 $Y$ 相互独立, 那么 $E [f (X) g (Y)] = E [f (X)] E [g (Y)]$

四、多个随机变量

上一节介绍的概念和想法可以推广到两个以上的随机变量。特别是，假设我们有个 $n$ 连续随机变量 $X_1(\omega), X_2(\omega), X_3(\omega), ..., X_n(\omega)$ 。在本节中，为了表示简单，我们只关注连续的情况，对离散随机变量的推广工作类似。

4.1 基本性质

我们可以定义 $X_1, X_2, ..., X_n$ 的联合累积分布函数、联合概率密度函数，以及给定 $X_2, X_3, ..., X_n$ 时 $X_1$ 的边缘概率密度函数为：
$F_{X_1, X_2, ..., X_n}(x_1, x_2, ..., x_n) = P(X_1 \leq x_1, X_2 \leq x_2, ..., X_n \leq x_n)$
$f_{X_1, X_2, ..., X_n}(x_1, x_2, ..., x_n) = \frac{\partial^n F_{X_1, X_2, ..., X_n}(x_1, x_2, ..., x_n)}{\partial{x_1} \partial{x_2} ... \partial{x_n}}$
$f_{X_1}(x_1) = \int_{-\infty}^{+\infty} ... \int_{-\infty}^{+\infty} f_{X_1, X_2, ..., X_n}(x_1, x_2, ..., x_n)dx_2dx_3...dx_n$
$f_{X_1 | X_2, X_3, ..., X_n}(x_1, x_2, ..., x_n) = \frac{f_{X_1, X_2, ..., X_n}(x_1, x_2, ..., x_n)}{f_{X_2, X_3, ..., X_n}(x_2, x_3, ..., x_n)}$

为了计算事件 $\subseteq \mathbb{R}$ 的概率，我们有：
$P((x_1, x_2, ..., x_n) \in A) = \int_{(x_1, x_2, ..., x_n) \in A} f_{X_1, X_2, ..., X_n}(x_1, x_2, ..., x_n)dx_1dx_2...dx_n$

链式法则：
从多个随机变量的条件概率的定义中，可以看出：
$f(x_1, x_2, ..., x_n) = f(x_n | x_1, x_2, ..., x_{n-1}) f(x_1, x_2, ..., x_{n-1})$
$f(x_n | x_1, x_2, ..., x_{n-1}) f(x_{n-1} | x_1, x_2, ..., x_{n-2}) f(x_1, x_2, ..., x_{n-2})$
$f(x_1) \prod_{i = 2}^{n} f(x_i | x_1, x_2, ..., x_{i - 1})$

独立性：对于多个事件， $A_1, A_2, ..., A_k$ ，我们说 $A_1, A_2, ..., A_k$ 是相互独立的，当对于任何子集 $\subseteq \{1, 2, ..., k\}$ ，我们有：
$P(\cap_{i \in S} A_i) = \prod_{i \in S} P(A_i)$

同样，我们说随机变量 $X_1, X_2, ..., X_n$ 是独立的，如果：
$f(x_1, x_2, ..., x_n) = f(x_1)f(x_2)...f(x_n)$

这里，相互独立性的定义只是从两个随机变量的独立性到多个随机变量的自然推广。

独立随机变量经常出现在机器学习算法中，其中我们假设属于训练集的训练样本代表来自某个未知概率分布的独立样本。为了明确独立性的重要性，考虑一个“坏的”训练集，我们首先从某个未知分布中抽取一个训练样本 $x^{(1)}, y^{(1)})$ ，然后将完全相同的训练样本的 $m - 1$ 个副本添加到训练集中。在这种情况下，我们有：
$P\bigl((x^{(1)}, y^{(1)}), (x^{(2)}, y^{(2)}), ..., (x^{(m)}, y^{(m)})\bigr) \neq \prod_{i = 1}^{m} P(x^{(i)}, y^{(i)})$

尽管训练集的大小为 $m$ ，但这些例子并不独立！虽然这里描述的过程显然不是为机器学习算法建立训练集的明智方法，但是事实证明，在实践中，样本的不独立性确实经常出现，并且它具有减小训练集的“有效大小”的效果。

4.2 随机向量

假设我们有 n 个随机变量。当把所有这些随机变量放在一起工作时，我们经常会发现把它们放在一个向量中是很方便的…我们称结果向量为随机向量(更正式地说，随机向量是从 $Ω$ 到 $\mathbb{R}^n$ 的映射)。应该清楚的是，随机向量只是处理 n 个随机变量的一种替代符号，因此联合概率密度函数和综合密度函数的概念也将适用于随机向量。

期望：
考虑 $\colon \mathbb{R}^n \rightarrow \mathbb{R}$ 中的任意函数，这个函数的期望值被定义为：
$\int_{\mathbb{R}^n} g(x_1, x_2, ..., x_n) f_{X_1, X_2, ..., X_n}(x_1, x_2, ..., x_n)dx_{1}dx_{2}...dx_{n}$

其中， $\int_{\mathbb{R}^n}$ 是从 $-\infty$ 到 $+\infty$ 的 n 个连续积分。如果 $g$ 是从 $\mathbb{R}^n$ 到 $\mathbb{R}^m$ 的函数，那么 $g$ 的期望值是输出向量的元素期望值，即，如果 $g$ 是：
$\begin{bmatrix} g_1(x)\\ g_2(x)\\ .\\ .\\ .\\ g_m(x) \end{bmatrix}$

那么：
$\begin{bmatrix} E[g_1(x)]\\ E[g_2(x)]\\ .\\ .\\ .\\ E[g_m(x)] \end{bmatrix}$

协方差矩阵： 对于给定的随机向量 $\colon Ω \rightarrow \mathbb{R}^n$ ，其协方差矩阵 $\Sigma$ 是 $\times n$ 方阵，其输入由 $\Sigma_{ij} = Cov[X_i, X_j]$ 给出。从协方差的定义来看，我们有：
$\Sigma = \begin{bmatrix} Cov[X_1, X_1] & \cdots & Cov[X_1, X_n]\\ \vdots & \ddots & \vdots \\ Cov[X_n, X_1] & \cdots & Cov[X_n, X_n] \end{bmatrix} = \begin{bmatrix} E[X_{1}^2] - E[X_1]E[X_1] & \cdots & E[X_{1}X_{n}] - E[X_1]E[X_n]\\ \vdots & \ddots & \vdots \\ E[X_{n}X_{1}] - E[X_n]E[X_1] & \cdots & E[X_{n}^2] - E[X_n]E[X_n] \end{bmatrix}$
$\begin{bmatrix} E[X_{1}^2] & \cdots & E[X_{1}X_{n}]\\ \vdots & \ddots & \vdots \\ E[X_{n}X_{1}] & \cdots & E[X_{n}^2] \end{bmatrix} - \begin{bmatrix} E[X_1]E[X_1] & \cdots & E[X_1]E[X_n]\\ \vdots & \ddots & \vdots \\ E[X_n]E[X_1] & \cdots & E[X_n]E[X_n] \end{bmatrix}$
$E[XX^T] - E[X]E[X^T] = \cdots = E[(X - E[X])(X - E[X])^T]$

其中矩阵期望以明显的方式定义。协方差矩阵有许多有用的属性：

$\Sigma \geq 0$ ，也就是说， $\Sigma$ 是半正定的；
$\Sigma = \Sigma^T$ ，也就是说， $\Sigma$ 是对称的。

4.3 多元高斯分布

随机向量上概率分布的一个特别重要的例子叫做多元高斯或多元正态分布。随机向量 $\in \mathbb{R}^n$ 被认为具有多元正态(或高斯)分布，当其具有均值 $\mu \in \mathbb{R}^n$ 和协方差矩阵 $\Sigma \in \mathbb{S}_{++}^n$ (其中 $\mathbb{S}_{++}^n$ 指对称正定 $\times n$ 矩阵的空间)时，有：
$f_{X_1, X_2, ..., X_n}(x_1, x_2, ..., x_n; \mu , \Sigma) = \frac{1}{(2\pi)^{n/2} |\Sigma|^{1/2}} exp^{\bigl(-\frac{1}{2} (x - \mu)^T \Sigma^{-1} (x - \mu)\bigr)}$

我们把它写成 $\sim \mathcal{N}(\mu , \Sigma)$ 。请注意，在 $n = 1$ 的情况下，它将降维成普通正态分布，其中均值参数为 $\mu_1$ ，方差为 $\Sigma_1$ 。

一般来说，高斯随机变量在机器学习和统计中非常有用，主要有两个原因：

首先，在统计算法中对“噪声”建模时，它们非常常见。通常，噪声可以被认为是影响测量过程的大量的小的独立随机扰动的累积；根据中心极限定理，独立随机变量的总和将趋向于“看起来像高斯”。
其次，高斯随机变量便于许多分析操作，因为实际中出现的许多涉及高斯分布的积分都有简单的封闭形式解。

五、其它资源

一本关于 CS229 所需概率水平的好教科书是谢尔顿·罗斯的《概率第一课》(A First Course on Probability by Sheldon Ross)。

参考文献

① 原始文件下载：http://cs229.stanford.edu/summer2019/cs229-prob.pdf
② 石振宇：https://github.com/szy2120109
③ 黄海广：https://github.com/fengdu78
④ github: https://github.com/fengdu78/Data-Science-Notes/tree/master/0.math