应用数学与机器学习基础 - 概率与信息论篇

绎岚科技

已于 2024-06-19 22:00:10 修改

阅读量1.1k

点赞数 31

分类专栏：深度学习机器学习文章标签：深度学习机器学习人工智能

于 2024-06-18 08:15:00 首次发布

本文链接：https://blog.csdn.net/benny_zhou2004/article/details/139738071

版权

机器学习同时被 2 个专栏收录

75 篇文章 0 订阅

订阅专栏

深度学习

46 篇文章 0 订阅

订阅专栏

序言

概率论是用于表示不确定陈述的数学框架。它不仅提供了量化不确定的方法，也提供了用于导出新的不确定陈述的公理。
在人工智能领域，我们主要有两种方式来使用概率论。

首先，概率法则告诉我们AI系统应该如何推理，所以我们设计一些算法来计算或者近似由概率论导出的表达式。
其次，我们可以用概率和统计从理论上分析我们提出的AI系统的行为。

概率论是众多科学和工程学科的基本工具。概率论使我们能够做出不确定的陈述以及在不确定性存在的情况下推理，而信息论使我们能够量化概率分布中的不确定性总量。

概率与信息论

1. 为什么要用概率？

在深度学习中使用概率论主要是出于以下几个关键原因：
- 处理不确定性：现实世界的数据往往是复杂且含有噪声的，包含许多不确定因素。概率论提供了一套量化和处理这种不确定性的数学框架，使模型能够学习数据中的潜在规律并做出合理的预测和决策。
- 模型表达：许多深度学习模型基于概率假设构建，如朴素贝叶斯分类器（Naive Bayes Classifiers）、隐马尔可夫模型（Hidden Markov Model, HMM）和贝叶斯网络（Bayesian Network）等，这些模型直接利用概率分布来表达数据生成过程或变量间的依赖关系。
- 优化与学习：概率论概念如似然函数（Likelihood Function）、最大似然估计（Maximum Likelihood Estimation, MLE）、贝叶斯推断（Bayesian Inference）等，在模型训练过程中起着核心作用，帮助算法找到最优参数配置，以最大化数据拟合度或后验概率。
- 特征选择与降维：概率方法可以用于评估特征的重要性，帮助进行特征选择，并可通过概率模型进行有效的数据降维，提高学习效率和模型泛化能力。
- 生成与判别模型：概率论支撑了生成模型和判别模型的理论基础。生成模型学习数据的联合分布，可用于模拟数据生成过程和异常检测等；判别模型直接学习条件概率，用于直接预测输出，两者在深度学习中有广泛的应用。
- 解释性与可信赖性：概率框架有助于提供模型预测的置信度度量，增强模型的可解释性和可靠性，这对于理解模型行为、调试错误以及在高风险决策场景中尤为重要。
综上所述，概率论不仅是深度学习理论的基石之一，也是提升模型性能、增强模型理解和应对现实世界复杂性的重要工具。

2. 随机变量

定义：
- 随机变量（random variable）是可以随机地去不同值的变量。
表示法：
- 通常用打印机体的小写字母来表示随机变量本身，而用脚本字体中的小写字母来表示随即变量能够取到的值。例如： $\text{x}$
- 例如， $x_1$ 和 $x_2$ 都是随机变量 $\text{x}$ 可能的取值。
- 对于向量值变量，我们会将随机变量写成 $\text{x}$ ，它的一个值为 $x$ .
一个随机变量只是对可能的状态的描述，它必须伴随着一个概率分布来指定每个状态的可能性。
随机变量可以是离散的或者连续的。
- 离散型随机变量拥有有限或者可数无限多的状态。注意这些状态不一定非要是整数。它们也可能只是一些被命名的状态且没有数值。
- 连续型随机变量伴随着实数值。

3. 概率分布

定义：
- 概率分布（probability distribution）用来描述随机变量或一簇随机变量在每个可能取到的状态的可能性大小。我们描述概率分布的方式取决于随机变量是离散的还是连续的。
离散型变量和概率分布律函数
- 离散型变量：
  - 离散型变量的概率分布可以用概率分布律函数（probability mass function, PMF）来描述。通常用大写字母 $P$ 来表示概率分布律函数。
  - 通常每一个随机变量都会有一个不同的概率分布律函数，并且必须根据随机变量来推断所使用的PMF，而不是根据函数的名称来推断。例如： $P(\text{x})$
- 概率分布律函数：
  - 概率分布律函数将随机变量能够取得的每个状态映射到随机变量取得该状态的概率。
  - $\text{x} = x$ 的概率用 $P (x)$ 来表示。概率为1表示 $\text{x} = x$ 是确定的，概率为0表示 $\text{x} = x$ 是不可能发生的。
  - 有时为了使得PMF的使用不相互混淆，我们会明确写出随机变量的名称: $P(\text{x} = x)$ .
  - 有时会定义一个随机变量，然后用 $\sim$ 符号来说明它遵循的分布： $\text{x} \sim P(\text{x})$ .
  - 概率分布律函数可以同时作用于多个随机变量。这种多个变量的概率分布被称为联合概率分布（joint probability distribution）。 $P(\text{x} = x, \text{y} = y)$ 表示 $\text{x} = x$ 和 $\text{y} = y$ 同时发生的概率。我们也可以简写为 $P (x, y)$ 。
  - 一个函数 $P$ 如果想要成为随机变量 $\text{x}$ 的PMF，那么必须满足以下两个条件：
    - $P$ 的定义域必须是 $\text{x}$ 的所有可能状态的集合。
    - $\forall x \in \text{x}, 0 \leq P(x) \leq 1$ 。不可能发生的事件概率为0，能够确保一定发生的事件概率为1。
  - 归一性（normalized）：
    - 我们把 $\sum_{x \in \text{x}} P(x) = 1$ 这条性质称之为归一性。
    - 注意：如果没有这条性质，当计算很多时间其中之一发生的概率时可能会得到大于1的概率。
  - 看个例子：考虑一个离散型随机变量 $\text{x}$ ，它有 $k$ 个不同的状态。我们可以假设 $\text{x}$ 是均匀分布（uniform distribution，它的每个状态视为等可能发生）的，即它的PMF： $P(\text{x} = x_i) = \displaystyle{\frac{1}{k}}$ 。
    - 对于所有的 $i$ 都成立。 $\sum\limits_{i} P(\text{x} = x_i) = \displaystyle{\sum\limits_{i} \frac{1}{k} = \frac{k}{k}} = 1$ 。所以分布也满足归一化条件。
连续型变量和概率密度函数
- 概率密度函数（probability density function, PDF）是连续型随机变量概率分布的函数。
- 一个函数 $p$ 如果想要成为概率密度函数，必须满足下面的这几个条件：
  - $p$ 的定义域必须是 $\text{x}$ 的所有可能状态的集合。
  - $\forall x \in \text{x}, p(x) \geq 1$ 。注意，我们并不要求 $\leq 1$ 。
  - $\int p(x) dx = 1$
- 概率密度函数 $p (x)$ 并没有直接对特定的状态给出概率，它给出了落在面积为 $\delta x$ 的无限小的区域内的概率为 $p(x)\delta x$ 。
- 我们可以对概率密度函数求积分获得点集的真实分布律。特别地， $x$ 落在集合 $\mathbb{S}$ 中的概率可以通过 $p (x)$ 对这个集合求积分来得到。
  - 单变量的例子： $x$ 落在区间 $[a, b]$ 的概率是 $\displaystyle{\int_{[a, b]} p(x) dx}$

4. 边缘概率

定义：
- 有时候，我们知道了一组变量的联合概率分布，想要了解其中一个子集的概率分布。这种定义在子集上的概率分布被称为边缘概率分布（marginal probabilty distribution）。
例：假设有离散型随机变量 $\text{x}$ 和 $\text{y}$ ，并且我们知道 $P(\text{x},\text{y})$ 。我们可以依据下面的求和法则（sum rule）来计算 $P(\text{x})$ 的概率分布： $\forall x \in \text{x}, P(\text{x} = x) = \sum\limits_y P(\text{x} = x, \text{y} = y)$
“边缘概率”的名称来源于手算边缘概率的计算过程。即：当 $P(\text{x},\text{y})$ 的每个值被写在由每行表示不同的 $x$ 的值，每列表示不同的 $y$ 的值组成的网格中时，对网格中的每行求和是很自然的事情，然后将求和的结果 $P (x)$ 写在每行右边的纸的边缘处。
对于连续型变量，我们需要用积分来替代求和： $\displaystyle{\int} p(x, y) dy$

5. 条件概率

定义：
- 很多情况下，我们感兴趣的是某个事件，在给定其他事件发生时，出现的额概率。这种概率被称为条件概率（conditional probability）。
表示法：
- 我们将给定 $\text{x} = x$ 时， $\text{y} = y$ 的发生的条件概率记为 $P(\text{y} = y \mid \text{x} = x)$ 。
公式：
- 这个条件概率可以通过下面的公式计算： $P(\text{y} = y \mid \text{x} = x) = \displaystyle{\frac{P(\text{y} = y, \text{x} = x)}{P(\text{x} = x)}}$
条件概率只在 $P(\text{x} = x) \gt 0$ 时有定义。我们不能计算给定在永远不会发生的事件上的条件概率。

6. 条件概率的链式法则

定义：
- 任何多维随机变量的联合概率分布，都可以分解成只有一个变量的条件概率相乘的形式：
  $P(\text{x}^{(1)},\dots,\text{x}^{(n)}) = P(\text{x}^{(1)})\prod_{i=2}^n P(\text{x}^{(i)} \mid \text{x}^{(i)},\dots,\text{x}^{(i-1)})$
  这个规则被称为概率的链式法则（chain rule）或者乘法法则（product rule）。
从条件概率公式的定义中得到：
- $P(\text{a}, \text{b}, \text{c}) = P(\text{a} \mid \text{b}, \text{c}) P(\text{b}, \text{c})$
- $P(\text{b}, \text{c}) = P(\text{b} \mid \text{c}) P(\text{c})$
- $P(\text{a}, \text{b}, \text{c}) = P(\text{a} \mid \text{b}, \text{c}) P(\text{b} \mid \text{c}) P(\text{c})$

7. 独立性和条件独立性

独立性：
- 两个随机变量 $\text{x}$ 和 $\text{y}$ ，如果它们的概率分布可以表示成两个因子的乘积形式，并且一个因子只包含 $\text{x}$ 另一个因子只包含 $\text{y}$ ，我们就称这两个随机变量是相互独立（independent）：
  $\forall x \in \text{x}, y \in \text{y}, p(\text{x} = x, \text{y} = y) = p(\text{x} = x) p(\text{y} = y)$
条件独立性：
- 两个随机变量 $\text{x}$ 和 $\text{y}$ 在给定随机变量 $z$ 是条件独立的（conditionally independent），如果关于 $\text{x}$ 和 $\text{y}$ 的条件概率分布对于 $z$ 的每一个值都可以写成乘积的形式：
  $\forall x \in \text{x}, y \in \text{y}, z \in \text{z}, p(\text{x} = x, \text{y} = y \mid \text{z} = z) = p(\text{x} = x \mid \text{z} = z) p(\text{y} = y \mid \text{z} = z)$
我们可以采用一种简化形式来表示独立性和条件独立性：
- $\text{x} \bot \text{y}$ 表示 $\text{x}$ 和 $\text{y}$ 相互独立
- $\text{x} \bot \text{y} \mid \text{z}$ 表示 $\text{x}$ 和 $\text{y}$ 在给定 $\text{z}$ 时条件独立。

8. 期望，方差和协方差

期望（expectation）：
- 函数 $f (x)$ 关于某分布 $P(\text{x})$ 的期望（expectation）或者期望值（expected value）是指：当 $x$ 由 $P$ 产生时， $f$ 作用于 $x$ 的平均值。
  - 对于离散型随机变量，可以通过求和得到： $\mathbb{E}_{x \sim P}[f(x)] = \sum\limits_{x} f(x) P(\text{x})$
  - 对于连续型随机变量，可以通过求积分得到： $\mathbb{E}_{x \sim p}[f(x)] = \displaystyle{\int} f(x) p(x) dx$
- 简化表示：
  - 当概率分布在上下文中指明时，我们可以只写出期望作用的随机变量的名字进行简化，例如 $\mathbb{E}_{\text{x}}[f(x)]$ 。
  - 如果期望作用的随机变量也很明确，我们可以完全不写脚本，例如 $\mathbb{E}[f(x)]$ 。
  - 默认地，我们假设 $\mathbb{E}[\cdot]$ ，表示对方括号内的所有随机变量的值求平均。类似地，当没有歧义时，我们还可以省略方括号，即 $\mathbb{E}$ 。
- 期望是线性的，当 $\alpha$ 和 $\beta$ 不依赖于 $x$ 时。
- 例如： $\mathbb{E}_{\text{x}}[\alpha f(x) + \beta g(x)] = \alpha \mathbb{E}_{\text{x}}[f(x)] + \beta \mathbb{E}_{\text{x}}[g(x)]$
方差（variance）：
- 定义：
  - 它衡量的是当我们对 $x$ 依据它的概率分布进行采样时，随机变量 $\text{x}$ 的函数值会呈现多大的差异。
- 表示：
  - $\text{Var}(f(x)) = \mathbb{E}[(f(x) - \mathbb{E}[f(x)]^2)]$
- 说明：
  - 当方差很小时， $f (x)$ 的值形成的簇比较接近它们的期望值。
- 标准差（standard deviation）
  - 方差的平方根被称为标准差。
协方差（coviarance）：
- 定义：
  - 在某种意义上给出了两个变量线性相关的强度以及这些变量的尺度。
- 表示：
  - $\text{Cov}(f(x), g(y)) = \mathbb{E}[(f(x) - \mathbb{E}[f(x)])(g(x) - \mathbb{E}[g(y)])]$
- 说明：
  - 协方差的绝对值如果很大，则意味着变量值变化很大，并且它们同时距离各自的均值很远。
  - 如果协方差是正的，那么两个变量都倾向于同时取值相对较大的值。
  - 如果协方差是负的，那么其中一个变量倾向于取得相对较大的值的同时，另一变量倾向于取得相对较小的值。反之亦然。
  - 其他的衡量指标，如相关系数（coefficient）将每个变量的贡献值归一化，为了只衡量变量的相关性，而不受变量大小的分别影响。因此它们更加易于理解。
随机向量 $\in \mathbb{R}^n$ 的协方差矩阵（covariance matrix）是一个 $\times n$ 的矩阵，并且满足： $\text{Cov}(\bold{x}_{i,j}) = \text{Cov}(\bold{x}_i,\bold{x}_j)$
协方差矩阵的对角元是方差： $\text{Cov}(\text{x}_i,\text{x}_i) = \text{Var}(\text{x}_i)$

9. 常用概率分布

许多简单的概率分布在机器学习的众多领域中都是有用的。
Bernoilli分布（伯努利分布）:
- 它是单个二值型随机变量的分布。
- 它由单个参数 $\phi \in [0, 1]$ 控制，其中 $\phi$ 给出了随机变量等于1的概率。
- 它具有如下一些性质：
  - $P(\text{x} = 1) = \phi$ 注：读作菲
  - $P(\text{x} = 0) = 1 - \phi$
  - $P(\text{x} = x) = \displaystyle{\phi^x (1 - \phi)^{1-x}}$
  - $\mathbb{E}_{\text{x}}[\text{X}] = \phi$
  - $\text{Var}_{\text{x}}(\text{x}) = \phi(1 - \phi)$
Multinoulli分布（多项分布）:
- Multinoulli分布或者分类分布（categorial distribution）是指在具有 $k$ 个不同状态的单个离散型随机变量上的分布， $k$ 是有限的。
- Multinoulli分布的参数是向量 $\in [0,1]^{k-1}$ ，每一个分量 $p_i$ 表示第 $i$ 个状态的概率。最后的第 $k$ 个状态的概率通过 $1 - 1^T p$ 计算得到。注意到我们必须限制 $1^T p \lt 1$ 。
- Multinoulli分布经常用来表示对象分类的分布，所以我们很少假设状态1具有数值1之类的。因此，我们通常不需要去计算Multinoulli分布的期望和方差。
- “multinoulli”这个术语是被Gustavo Lacerdo发明，被Murphy（2012）推广的。Multinoulli分布是多项分布的一个特例。多项分布是 $\{ 0,\dots,n \}^k$ 中的向量的分布，用于表示当对Multinoulli分布采样 $n$ 次时 $k$ 个类中的每一个被方位的次数。
- 注意：很多文章使用“多项分布”，而实际上说的是Multinoulli分布。但是要注意是对 $n = 1$ 的情况下。
高斯分布（Gaussian distribution）:
- 对于实数上的分布最常用的就是正态分布（normal distribution），也称为高斯分布（Gaussian distribution）。
- 公式：
  - $\mathcal{N}(x;\mu,\sigma^2)=\displaystyle{\sqrt{\frac{1}{2 \pi \sigma^2}}} e^{\displaystyle{\left(-\frac{1}{2\sigma^2} (x - \mu)^2\right)}}$
  - 正态分布被两个参数控制， $\mu \in \mathbb{R}$ 和 $\sigma \in (0,\infty)$ 。
  - 参数 $\mu$ 控制分布的均值： $\mu = \mathbb{E}_{\text{x}}[\text{X}] = \mathbb{E}[\text{X}]$
  - 参数 $\sigma$ 控制分布的标准差，方差用 $\sigma^2$ 表示。
- 当我们要对概率密度函数（PDF）求值时，需要对 $\sigma$ 平方并且取倒数。
- 当我们要经常对不同参数下的概率密度函数求值时，一种更高效的使用参数描述分布的方式是使用参数 $\beta \in (0,\infty)$ ，来控制分布的精度（precision）或者方差的倒数： $\mathcal{N}(x;\mu,\beta^{-1}) = \displaystyle{\sqrt{\frac{\beta}{2\pi}}} e^{\displaystyle{\left(-\frac{\beta}{2} (x - \mu)^2\right)}}$
- 正态分布图，如下：
正态分布 $\mathcal{N}(x;\mu,\sigma^2)$ 呈现经典的“钟形曲线”的形状，其中中心峰的 $x$ 坐标由 $\mu$ 给出，峰的宽度受 $\sigma$ 控制。在这个示例中，我们展示的是标准正态分布（standard normal distribution），其中 $\mu = 0, \sigma = 1$ 。
- 采用正态分布：
  - 采用正态分布在很多应用中都是一个明智的选择。当我们缺乏对于某个实数上分布的先验知识而不知道该选择怎样的形式时，正态分布是默认的比较好的选择。
- 多维正态分布（multivariate normal distribution）:
  - 定义：
    - 正态分布可以推广到 $\mathbb{R}^n$ 空间，这种情况下被称为多维正态分布（multivariate normal distribution）。
  - 公式：
    - 它的参数是一个正定对称矩阵 $\boldsymbol{\Sigma}$ ：
      $\mathcal{N}(x;\mu,\boldsymbol{\Sigma}) = \displaystyle{\sqrt{\frac{1}{(2\pi)^n \text{det}(\boldsymbol{\Sigma})}}} e^{\displaystyle{\left(-\frac{1}{2}(x-\mu)^\top \boldsymbol{\Sigma}^{-1} (x-\mu) \right)}}$
  - 说明：
    - 参数 $\mu$ 仍然表示分布的均值，只不过现在是向量值。
    - 参数 $\boldsymbol{\Sigma}$ 给出了分布的协方差矩阵。
  - 和单变量的情况类似，当我们希望对很多不同参数下的概率密度函数（PDF）多次求值时，协方差并不是一个很高效的用参数描述分布的方法，因为对概率密度函数（PDF）求值时需要对 $\boldsymbol{\Sigma}$ 求逆。我们可以用一个精度矩阵（precision matrix） $\beta$ 进行替代：
    $\mathcal{N}(x;\mu,\beta^{-1}) = \displaystyle{\sqrt{\frac{\text{det}(\boldsymbol{\beta})}{(2\pi)^n }}} e^{ \displaystyle{\left(-\frac{1}{2}(x-\mu)^\top \beta (x-\mu) \right)} }$
  - 我们常常把协方差矩阵固定成一个对角矩阵。一个更简单的版本是各向同性（isotropic）高斯分布，它的协方差矩阵是一个标量乘以单位矩阵。
指数分布和Laplace分布：
- 在深度学习中，我们经常会需要一个在 $x = 0$ 点处取得边界点（sharp point）的分布。为了实现这一目的，我们可以使用指数分布（exponential distribution）： $\lambda) = \lambda 1_{x \ge0} e^{(-\lambda x)}$
- 一个非常相关的概率分布是Laplace分布（Laplacian distribution），它允许我们在任意一点 $\mu$ 处设置概率分布的峰值
  $\mu, \gamma) = \frac{1}{2\gamma} e^{-\frac{|x - \mu|}{\gamma}}$
Dirac分布和经验分布：
- Dirac分布
  - 定义：
    - 在一些情况，我们想要所有的概率都集中在一个点上。这可以通过Dirac函数（Dirac delta function） $\delta(x)$ 定义概率密度函数（PDF）来实现。
  - 公式：
    - $\delta(x - \mu)$
  - Diarc delta函数被定义成除了0以外的其他店的值都为0，但积分为1。
  - Diarc delta函数不像普通函数一样对 $x$ 的每一个值都有一个实数值的输出，它是一种不同类型的数学对象，被称为广义函数（generalized function）。
  - 广义函数是依据积分性质定义的数学对象。我们可以Diarc delta函数想成一系列函数的极限点，这一系列函数把除 $\mu$ 以外的所有点的概率密度函数越变越小。
  - 通过把 $p (x)$ 定义成 $\delta$ 函数左移 $-\mu$ 个单位，我们得到了一个在 $\mu$ 处具有无限窄也无限高的峰值的概率密度函数。
- 经验分布：
  - Diarc分布经常作为经验分布（empirical distribution）的一个组成部分出现：
    $\hat{p}(x) = \frac{1}{m} \sum\limits_{i=1}^m \delta (x - x^{(i)})$
  - 其中，经验分布将概率密度 $\frac{1}{m}$ 赋给 $m$ 个点 $x^{1},\dots,x^{(m)}$ 中的每一个，这些点是给定的数据集或者采样的集合。
  - Diarc delta函数只对定义连续性随机变量的经验分布是必要的。
  - 对于离散型随机变量，情况更加简单：经验分布可以被定义成一个Multinoulli分布，对于每一个可能的输入，其概率可以简单地设为在训练集上那个输入值的经验频率（empirical frequency）。
  - 注：当我们在训练集上训练模型时，可以认为从这个训练集上得到的经验分布指明了我们采样来源的分布。关于经验分布另外一种重要的观点是，它是训练数据的似然最大的那个概率密度函数。
分布的混合：
- 通过组合一些简单的概率分布来定义新的概率分布也是常见的。
- 定义：
  - 一种通用的组合方法是构造混合分布（mixture distribution）。混合分布由一些组件（component）分布构成。每次试验，样本是由哪个组件分布产生的取决于从一个Multinoulli分布中采样的结果： $\sum\limits_i P(\text{c} = i) P(\text{x} \mid \text{c} = i)$ ，这里 $P(\text{c})$ 是对个组件的一个Multinoulli分布。
- 混合模型：
  - 它是组合简单概率分布来生成更丰富的分布的一种简单策略。
- 浅变量（latent variable）：
  - 混合模型使我们能够一瞥以后会用到的一个非常重要的概率 - 浅变量（latent variable）
  - 定义：
    - 浅变量是我们不能直接观测到的随机变量。
    - 混合模型的组件变量 $\text{c}$ 就是其中一个例子。浅变量在联合分布中可能和 $\text{x}$ 有关，在这种情况下， $P(\text{x}, \text{c}) = P(\text{x} \mid \text{c}) P(\text{c})$ 。
    - 浅变量的分布 $P(\text{c})$ 以及关联浅变量和观测变量的条件分布 $P(\text{x} \mid \text{c})$ ，共同决定了分布 $P(\text{x})$ 的形状。
- 高斯混合模型（Gaussian Mixture Model）：
  - 一个非常强大且常见的混合模型是高斯混合模型（Gaussian Mixture Model），它的组件 $p(\text{x} \mid \text{c} = i)$ 是高斯分布。
  - 每个组件都有各自的参数，均值 $\mu^{(i)}$ 和协方差矩阵 $\boldsymbol{\Sigma}^{(i)}$ 。
  - 有一些混合可以有更多的限制。例如：协方差矩阵可以通过 $\boldsymbol{\Sigma}^{(i)} = \boldsymbol{\Sigma}, \forall i$ 的形式在组件之间共享参数。
  - 和单个高斯分布一样，高斯混合模型有时会限制每个组件的协方差矩阵是对角的或者各向同性的（标量乘以单位矩阵）。
  - 先验概率（prior probability）：
    - 除了均值和协方差以外，高斯混合模型的参数指明了给个组件 $i$ 的先验概率： $\alpha_i = P(\text{c} = i)$ 。“先验”一词表明了在观测到 $\text{x}$ 之前传递给模型关于 $\text{c}$ 的信念。
  - 后验概率（posterior probability）：
    - 作为对比， $P(\text{c} \mid x)$ 是后验概率（posterior probability），它表示在观测到 $\text{x}$ 之后进行计算的。
  - 高斯混合模型是概率密度的通用逼近器（universal approximator），在这种意义上，任何平滑的概率密度都可以用具有足够多组件的高斯混合模型以任意精度来逼近。
  - 高斯混合模型生成的样例，如下图：
在这个示例中，有三个组件。从左到右，第1个组件：具有各向同性的协方差矩阵，这意味着它在每个方向上具有相同的方差。第2个组件：具有对角的协方差矩阵，这意味着它在每个轴的对齐方向单独控制方差。沿着 $x_2$ 轴的方差要比咬着 $x_1$ 轴的方差大。第3个组件：具有满秩的协方差矩阵，使它能够沿着任意基的方向单独地控制方差。

10. 常用函数的一些性质

某些函数在处理概率分布时经常会出现，尤其是深度学习的模型中用到的概率分布。
Logistic Sigmoid函数：
- 其中一个函数是Logistic Sigmoid函数： $\sigma(x) = \displaystyle{\frac{1}{1+e^{-x}}}$
- Logistic Sigmoid函数通常用来产生Bernoulli分布中的参数 $\phi$ ，因为它的范围是(0,1)，处在 $\phi$ 的有效取值范围。
- Logistic Sigmoid函数的图示，如下：
Sigmoid函数在变量取绝对值非常大的正值或负值时出现饱和（saturation）现象，意味着函数会变得很平，并且对输入的微小改变会变得不敏感。
Softplus函数
- Softplus函数是Logistic Sigmoid函数的平滑版本： $\zeta(x) = \log(1 + e^x)$
- softplus函数可以用来产生正态分布的 $\beta$ 和 $\sigma$ 参数，因为它的范围是(0, $\infty$ )。当处理包含Sigmoid函数的表达式时它也经常出现。
- softplus函数名来源于它是另一个函数的平滑形式，这个函数是： $x^+ = \text{max}(0,x)$
- softplus函数的图示，如下：
- Softplus函数的常用性质，包括：
  - 性质1： $\displaystyle{\sigma = \frac{e^{(x)}}{e^{(x)} + e^{(0)}}}$
  - 性质2： $\displaystyle{ \frac{d}{dx}\sigma(x)=\sigma(x)(1-\sigma(x)) }$
  - 性质3： $\displaystyle{1-\sigma(x) = \sigma(-x)}$
  - 性质4： $\displaystyle{ \log\sigma(x) = -\zeta(-x) }$
  - 性质5： $\displaystyle{ \frac{d}{dx} \zeta(x) = \sigma(x) }$
  - 性质6： $\displaystyle{ \forall x \in (0,1), \sigma^{-1}(x) = \log\left( \frac{x}{1-x} \right) }$
  - 性质7： $\displaystyle{ \forall x \gt 0, \zeta^{-1}(x) = \log\left( e^x - 1 \right) }$
  - 性质8： $\displaystyle{ \zeta(x) = \int_{-\infty}^x \sigma(y)dy}$
  - 性质9： $\displaystyle{ \zeta(x) - \zeta(-x) = x }$
- 函数 $\sigma^{-1}(x)$ 在统计学中被称为分对数（logit），但这个函数在机器学习中很少用到。
- 正部函数（positive part function）： $\displaystyle{ x^+ = \text{max} \{0, x\} }$
- 负部函数（negative part function）： $\displaystyle{ x^- = \text{max} \{0, -x\} }$

11. 贝叶斯规则

定义：
- 我们经常会需要再已知 $P(\text{y} \mid \text{x})$ 时计算 $P(\text{x} \mid \text{y})$ 。幸运的是，如果还知道 $P(\text{x})$ ，我们可以用贝叶斯规则（Bayes’s rule）来计算 $P(\text{x} \mid \text{y})$ 。
公式：
- $P(\text{x} \mid \text{y}) = \displaystyle{\frac{P(\text{x}) P(\text{y} \mid \text{x})} {P{\text{y}}}}$
  注意到 $P(\text{y})$ 出现在上面的额公式中，它通常使用 $P(\text{y}) = \sum_x P(\text{y} \mid x) P(x)$ 来计算，所以我们并不需要事先知道 $P(\text{y})$ 的信息。
说明：
- 贝叶斯规则可以从条件概率的定义直接推到得出。
- 最好牢记这个公式的名字，因为很多文献通过名字来引用这个公式。
- 这个公式是以Reverend Thomas Bayes的名字命名的，他是第一个发现这个公式的特例的人。这里介绍的一般形式由Pierre-Simon Laplace在1792年提出。

12. 连续型变量的技术细节

连续型变量是统计学和概率论中的一个重要概念，它指可以在一定区间内取任意值的变量，如温度、长度、时间等。这些变量的关键技术细节包括：
- 概率密度函数(PDF)：连续型随机变量的概率通过概率密度函数来描述，而不是像离散型随机变量那样直接用概率质量函数。概率密度函数在某一点的值并不代表该点的概率，而是表示在该点附近很小区间内的相对概率密度。
- 累积分布函数(CDF)：连续型随机变量的累积分布函数是一个从负无穷大单调递增到正无穷大的连续函数，表示随机变量小于等于某个值的概率。
- 测度论基础：在严格的数学定义中，连续型随机变量的理论建立在测度论之上，这有助于处理概率中的积分问题，避免在计算概率时出现悖论，比如处理具有复杂边界或奇异性质的集合。
- 积分运算：连续型随机变量落在某个区间或集合内的概率是通过对其概率密度函数在该区间或集合上积分得到的。
- 变换规则：当连续型随机变量通过可逆且连续可微的函数变换时，其概率密度函数会相应地发生变化，这一过程遵循概率密度函数的变换法则。
- 测量误差：在实际应用中，连续型变量的测量往往存在误差，这意味着观察到的值可能是真实值周围的某个区间，因此在分析时需考虑这种不确定性。
- 统计描述：连续型变量通常使用如平均值、中位数、方差等统计量进行描述，这些统计量可以帮助理解数据的集中趋势和离散程度。
这些技术细节在理论研究及实际数据分析中都至关重要，尤其是在概率模型构建、统计推断和机器学习等领域。
在高维空间中，微分运算扩展为Jacobi矩阵（Jacobian matrix）的行列式 - 矩阵的每个元素为 $J_{i,j} = \displaystyle{\frac{\partial x_i}{\partial y_i}}$ 。因此，对于实数值的向量 $\boldsymbol{x}$ 和 $\boldsymbol{y}$ ， $p_x(\boldsymbol{x}) = p_y(g(\boldsymbol{x})) \left| \text{det} \left( \frac{\partial g(x)}{\partial x} \right) \right|$

13. 信息论

信息论是应用数学的一个分支，主要研究的是对一个信号能够提供信息的多少进行量化。它最初被发明是用来研究在一个含有噪声的信道上用离散的字母表来发送消息，例如通过无线电传输来通信。在这种情况下，信息论告诉我们如何设计最优编码，以及计算从一个特定的概率分布上采样得到、使用多种不同的编码机制的消息的期望长度。
在机器学习中，我们也可以把信息论应用在连续型变量上，而信息论中一些消息长度的解释不怎么使用。信息论是电子工程和计算机科学的许多领域的基础。
信息论的基本想法是一个不太可能的事件居然发生了，要比一个非常可能的事件发生，能提供更多的信息。
- 消息说：“今天早上太阳升起” 信息量是如此之少以至于没有必要发送，但一条消息说：“今天早上有日食” 信息量就很丰富。
- 我们想要通过这种基本想法来量化信息。特别的是
  - 非常可能发生的事件信息量要比较少，并且极端情况下，确保能够发生的事件应该没有信息量。
  - 更不可能发生的事件要具有更高的信息量。
  - 独立事件应具有增量的信息。例如，投掷的硬币两次正面朝上传递的信息量，应该是投掷一次正面朝上的信息量的两倍。
自信息（self-information）
- 为了满足上述三个性质，我们定义一个事件 $\text{x} = x$ 的自信息（self-information）为： $-\log P(x)$ 。
  - 我们总是用 $\log$ 来表示自然对数，底数为 $e$ 。因此，我们定义的 $I (x)$ 单位是奈特（nats）。一奈特是 $\frac{1}{e}$ 的概率观测到一个事件时获得的信息量。
  - 其他的材料中使用底数为2的对数，单位是比特（bit）或者香农（shannons）。
  - 通过比特度量的信息只是通过奈特度量信息的常数倍。
香农熵（Shannon entropy）
- 自信息只处理单个的输出。我们可以用香农熵（Shannon entropy）来对整个概率分布中的不确定总量进行量化。
- 公式：
  - $H(\text{x}) = \mathbb{E}_{\text{x} \sim P} [I(x)] = -\mathbb{E}_{\text{x} \sim P}[\log P(x)]$ ，也记作 $H (P)$ 。
  - 换言之，一个分布的香农熵是指遵循这个分布的事件所产生的期望信息总量。
KL散度 (Kullback-Leibler (KL) divergence)
- 如果我们对于同一个随机变量 $\text{x}$ 有两个单独的概率分布 $P(\text{x})$ 和 $Q(\text{x})$ ，我们可以使用KL散度 (Kullback-Leibler (KL) divergence) 来衡量这两个分布的差异。
- 公式：
  - $D_{KL}(P||Q) = \mathbb{E}_{\text{x} \sim P}[\log\frac{P(x)}{Q(x)}] = \mathbb{E}_{\text{x} \sim P} \left[\log P(x) - \log Q(x) \right]$
  - 在离散型变量的情况下， KL散度衡量的是，当我们使用一种被设计成能够使得概率分布 $Q$ 产生的消息的长度最小的编码时，发送包含由概率分布 $P$ 产生的符号的消息时，所需要的额外信息量 (如果我们使用底数为2的对数时信息量用比特衡量，但在机器学习中，我们通常用奈特和自然对数。)
- 性质：
  - KL散度有很多有用的性质，最重要的是它是非负的。
  - KL散度为0当且仅当 $P$ 和 $Q$ 在离散型变量的情况下是相同的，或者在连续型变量的情况下是“几乎处处”相同的。
  - 因为KL散度是非负的并且衡量的是了两个分布之间的差异，它经常被用作分布之间的某种距离。然而，它并不是真的距离因为它不是对称的：
    - 对于某些 $P$ 和 $Q$ ， $D_{KL}(P||Q) \neq D_{KL}(Q||P)$ 。
交叉熵（cross-entropy）
- 交叉熵是衡量两个分布之间的差异的常用方法。
- 定义：
  - 一个和KL散度密切联系的量是交叉熵（cross-entropy）。
  - 公式：
    - $H(P,Q) = H(P) + D_{KL}(P||Q)$
    - 交叉熵和KL散度很像但是缺少左边一项： $-\mathbb{E}_{\text{x} \sim P}[\log Q(x)]$

14. 结构化概率模型

$\mathcal{G}$
机器学习的算法经常会涉及到在非常多的随机变量上的概率分布。通常，这些概率分布涉及到的直接相互作用都是介于非常少的变量之间的。使用单个函数来描述整个联合概率分布是非常低效的 (无论是计算还是统计)。代替使用单一的函数来表示概率分布，我们可以把概率分布分割成许多因子的乘积形式。
示例：假设我们有三个随机变量 $\text{a}, \text{b}$ 和 $\text{c}$ ，并且 $\text{a}$ 影响 $\text{b}$ 的取值， $\text{b}$ 影响 $\text{c}$ 的取值，但是 $\text{a}$ 和 $\text{c}$ 在给定 $\text{b}$ 时是条件独立的。我们可以把全部三个变量的概率分布重新表示为两个变量的概率分布的连乘形式： $p(\text{a}, \text{b}, \text{c}) = p(\text{a}) p(\text{b} | \text{a}) p(\text{c} | \text{b})$ （参照：条件概率的链式法则）。
- 这种因子分解可以极大地减少用来描述一个分布的参数的数量。
- 每个因子使用的参数数目是它的变量数目的指数倍。这意味着，如果我们能够找到一种使每个因子分布具有更少变量的因子分解方法，我们就能极大地降低表示联合分布的成本。
结构化概率模型（structured probabilistic model）或者图模型（graphical model）：
- 它是一种概率模型，它使用图来描述因子分解。
- 图论中的“图”的概念：
  - 由一些可以通过边互相连接的顶点的集合构成。
- 定义：
  - 当用图来表示这种概率分布的因子分解，我们称这种概率分布为结构化概率模型（structured probabilistic model）或者图模型（graphical model）。
- 两种主要的结构化概率模型：
  - 两种主要的结构化概率模型：有向的和无向的
  - 表示法：
    - 两种图模型都使用图 $\mathcal{G}$ 来表示。
    - 其中图的每个节点对应着一个随机变量，连接两个随机变量的边意味着概率分布可以表示成这两个随机变量之间的直接作用。
  - 有向图（directed graph）
    - 有向图模型使用带有有向边的图，它们用条件概率分布来表示因子分解。
    - 特别地，有向图模型对于分布中的每一个随机变量 $\text{x}_i$ 都包含着一个影响因子，这个组成 $\text{x}_i$ 条件概率的影响因子被称为 $\text{x}_i$ 的双亲，记为 $Pa_\mathcal{G}(\text{x}_i)$ 。
    - 公式：
      - $p(\bold{x}) = \displaystyle{\prod} p(\text{x}_i \mid Pa_\mathcal{G}(\text{x}_i))$
    - 一个有向图及其表示的概率分布的因子分解，示例如下：
    - 说明：
      - 关于随机变量a,b,c,d和e的有向图模型。该图对应的概率分布可以分解为： $p(\text{a},\text{b},\text{c},\text{d},\text{e}) = p(\text{a})p(\text{b} \mid \text{a}) p(\text{c} \mid \text{a},\text{b}) p(\text{d} \mid \text{b}) p(\text{e} \mid \text{c})$
      - 该图模型使我们能够快速看出此分布的一些性质。例如，a和c直接相互影响，但a和e只有通过c间接相互影响。
  - 无向图（undirected graph）
    - 无向图模型使用使用带有无边的图，它们将因子分解表示成一堆函数；不像有向模型那样，这些函数通常不是任何类型的概率分布。
    - $\mathcal{G}$ 中任何全部相连的节点构成的集合被称为团。
    - 无向模型中的每个团 $\mathcal{C}^{(i)}$ 都伴随着一个因子 $\phi^{(i)}(\mathcal{C}^{(i)})$ 。
      - 注意：这些因子仅仅是函数，并不是概率分布。
    - 每个因子的输出都必须是非负的，但是不没有像概率分布中那样要求因子的和或积分为1。
    - 公式：
      - 随机变量的联合概率和所有这些因子的乘积成比例（proportional），意味着因子的值越大则可能性越大。
      - 当然，不能保证这种乘积的求和为1。所以我们需要除以一个归一化常数 $Z$ 来得到归一化的概率分布，归一化常数 $Z$ 被定义为 $\phi$ 函数乘积的所有状态的求和或积分。
      - 概率分布为： $p(\bold{x}) = \displaystyle{\frac{1}{Z}} \displaystyle{\prod} \phi^{(i)}(\mathcal{C}^{(i)})$
    - 一个无向图及其表示的概率分布的因子分解，示例如下：
    - 说明：
      - 关于随机变量a,b,c,d和e的无向图模型。该图对应的概率分布可以分解为： $p(\text{a},\text{b},\text{c},\text{d},\text{e}) = \frac{1}{Z} \phi^{(1)}(\text{a},\text{b},\text{c}) \phi^{(2)}(\text{b},\text{d}) \phi^{(3)}(\text{c},\text{e})$
      - 该图模型使我们能够快速看出此分布的一些性质。例如，a和c直接相互影响，但a和e只有通过c间接相互影响。
  - 总结：
    - 上述两个图模型表示的因子分解仅仅是描述概率分布的一种语言。它们是互相排斥的概率分布簇。
    - 有向或无向不是概率分布的特性，它们是概率分布的一种特殊描述（description）所具有的特性。
    - 任何的概率分布都可以用这两种方式进行描述。

绎岚科技

关注

31
点赞
踩
29

收藏

觉得还不错? 一键收藏
打赏
0
评论
应用数学与机器学习基础 - 概率与信息论篇

序言概率论是用于表示不确定陈述的数学框架。它不仅提供了量化不确定的方法，也提供了用于导出新的不确定陈述的公理。在人工智能领域，我们主要有两种方式来使用概率论。首先，概率法则告诉我们AI系统应该如何推理，所以我们设计一些算法来计算或者近似由概率论导出的表达式。其次，我们可以用概率和统计从理论上分析我们提出的AI系统的行为。概率论是众多科学和工程学科的基本工具。概率论使我们能够做出不确定的陈述以及在不确定性存在的情况下推理，而信息论使我们能够量化概率分布中的不确定性总量。概率与信息论1. 为什
复制链接

扫一扫