DeepLearning深度学习（花书）读书笔记——概率与信息论（一）

LittleSlugBoZ

已于 2024-02-20 15:41:03 修改

阅读量668

点赞数 20

分类专栏： # 深度学习读书笔记.花书深度学习笔记文章标签：深度学习人工智能概率论算法

于 2024-02-20 15:27:49 首次发布

本文链接：https://blog.csdn.net/bonn1011/article/details/136191118

版权

深度学习笔记同时被 2 个专栏收录

15 篇文章 2 订阅

订阅专栏

深度学习读书笔记.花书

13 篇文章 2 订阅

订阅专栏

第3章概率与信息论

概率论是用于表示不确定性声明的数学框架，它不仅提出了量化不确定性的方法，也提供了用于导出新的不确定性声明的公理。在人工智能领域，概率论主要有两种用途：一是概率法则告诉我们AI系统如何推理，可以设计一些算法来计算由概率论导出的表达式；二是可以用概率和统计从理论上分析我们提出的AI系统的行为。
概率论使我们能够提出不确定的声明以及在不确定性存在的情况下进行推理，而信息论使我们能够量化概率分布中的不确定性总量。
如果已经掌握相关知识，可以跳过前面章节，直接学习第3.14节。同样的，本书中只是介绍了与深度学习相关的知识，需要参考其它资料共同学习，从而真正理解并掌握这些知识。

1、为什么要使用概率

计算机科学的许多分支处理的实体大部分都是完全确定且必然的。程序员通常可以安全的假定CPU将完美执行每条机器指令（硬件发生错误非常罕见，可以不用考虑）。因此，机器学习对于概率论的大量使用是很令人吃惊的。
这是因为机器学习通常必须处理不确定量，有时也可能需要处理随机量。不确定性和随机性可能来自多个方面：
(1)被建模系统内在的随机性。
(2)不完全观测。即使是确定的系统，当不能观测到所有驱动系统行为的变量时，该系统也会呈现随机性。
(3)不完全建模。当使用一些必须舍弃某些观测信息的模型时，舍弃的信息会导致模型的预测出现不确定性。
在很多情况下，使用一些简单而不确定的规则要比复杂而确定的规则更为实用，即使真正的规则是确定的并且我们建模的系统可以足够精确的容纳复杂的规则。
尽管我们的确需要一种用以对不确定性进行表示和推理的方法，但是概率论并不能明显的提供我们在人工智能领域需要的所有工具。概率论最初的发展是为了分析事件发生的频率，它是对于可以重复的事件来说的。但有些事件或命题是不可重复的，这时，用概率来表示一种信任度(degree of belief)，其中1表示确定是，0表示确定否。概率直接与事件发生的频率相联系的，称为频率派概率，概率表示确定性水平（信任度）的，称为贝叶斯概率。另外，为了满足概率的性质，需要将贝叶斯概率和频率派概率视为等同的。
概率可以被看作用于处理不确定性问题的逻辑的扩展，逻辑提供了一套形式化的规则，可以在给定某些命题是真或假的情况下，判断另外一些命题是真的还是假的。概率论提供了一套形式化的规则，可以在给定一些命题的似然（概率）后，计算其它命题为真的似然（概率）。

2、随机变量

随机变量是可以随机的取不同值的变量(在数学中的定义是，将随机实验的样本空间中的状态映射到实值单值的函数，多个状态可以对应一个单值，单个状态不可以对应多个单值)。通常用无格式字体中小写字母来表示随机变量本身，用手写体中的小写字母来表示随机变量能够取到的值。如： $x_1$ 和 $x_2$ 都是随机变量 $\text{x}$ 的取值。对于向量值变量，用同样规则的粗体来表示，比如： $\bm{x}$ 是随机变量 $\bf{x}$ 的一个取值。
就其本身而言，一个随机变量只是对可能的状态的描述，它必须伴随着一个概率分布来指定每个状态的可能性。
随机变量可以是离散的或者连续的。离散随机变量拥有有限或者可数无限多的状态（这些状态不一定非要是整数，也可能只是一些被命名的状态而没有数值）。连续随机变量伴随着实数值。

3、概率分布

概率分布用来描述随机变量或一簇随机变量在每一个可能取到的状态的可能性大小，它的描述方式取决于随机变量是离散的还是连续的。

3.1、离散型变量和概率质量函数

离散型随机变量的概率分布可以用概率质量函数（probability mass function，PMF）来描述（也翻译为概率分布律）。通常用大写字母 $P$ 来表示概率质量函数。通常每一个随机变量都会有一个不同的概率质量函数，所以要根据随机变量来推断它所使用的PMF，而不能根据函数名称，因为它们的函数名都一样，如 $P(\text{x})$ 通常和 $P(\text{y})$ 不是一个函数。
概率质量函数的作用是将随机变量能够取得的每个状态映射到它取得该状态的概率。通常，用 $P (x)$ 来表示 $\text{x}=x$ 的概率（有时为了不混淆也写为 $P(\text{x}=x)$ ），概率为 $1$ 表示 $\text{x}=x$ 是确定的，概率为 $0$ 表示 $\text{x}=x$ 是不可能的。有时，会先定义一个随机变量 $\text{x}$ ，用 $\sim$ 来说明它服从的分布： $\text{x}\sim{P(\text{x})}$ 。
概率质量函数可以同时作用于多个随机变量，这种多个随机变量的概率分布被称为联合概率分布。例如， $P(\text{x}=x,\text{y}=y)$ 表示 $\text{x}=x$ 和 $\text{y}=y$ 同时发生的概率，也可以简写为 $P (x, y)$ 。
如果 $P$ 是随机变量 $\text{x}$ 的概率质量函数，则需要满足下面的条件：

$P$ 的定义域必须是 $\text{x}$ 所有可能状态的集合。
$\forall{x}\in\text{x},{0}\leqslant{P(x)}\leqslant{1}$ ，不可能发生的事件概率为 $0$ ，并且不存在比这个概率更低的状态。同样，能够确定发生的事件的概率为 $1$ ，而且不存在比这概率更高的状态。
$\sum_{x\in\text{x}}P(x)=1$ 。该性质也被称为归一化，没有这个性质，可能会得到大于 $1$ 的概率。

例如，一个离散型随机变量 $\text{x}$ 有 $k$ 个状态。假设 $\text{x}$ 是均匀分布的（即每个状态都是等可能的），则通过将它的PMF设为：
$P(\text{x}=x_i)=\frac{1}{k} \tag{3.1}$
对于所有 $i$ 都成立，以满足第一个条件。同样，因为 $k$ 是一个正整数，所以 $k$ 是正的。因此满足第二个条件。另外，还可以看出
$\sum_iP(\text{x}=x_i)=\sum_i\frac{1}{k}=\frac{k}{k}=1 \tag{3.2}$
因此，还满足归一化条件。

3.2、连续型变量和概率密度函数

连续型随机变量的概率分布用概率密度函数（probability density function，PDF）来描述。一般用小写字母 $p$ 来表示，它满足下面的性质：

$p$ 的定义域必须是 $\text{x}$ 所有可能状态的集合。
$\forall{x}\in\text{x},p(x)\geqslant0$ 。注意，并不要求 $p(x)\leqslant1$ 。
$\int{p(x)dx}=1$ 。

概率密度函数 $p (x)$ 并没有直接对特定的状态给出概率，相对的，它给出了落在面积为 $\delta{x}$ 的无限小区域内的概率为 $p(x)\delta{x}$ 。
可以通过对概率密度函数求积分来获得点集的真实概率质量。特别是， $x$ 落在集合 $\mathbb{S}$ 中的概率可能通过 $p (x)$ 对这个集合求积分来得到，例如， $x$ 落在区间 $[a, b]$ 的概率是 $\int_{[a,b]}p(x)dx$ 。
例如，实数区间上的均匀分布。假设连续型随机变量 $\text{x}$ 是在区间 $[a, b]$ 上是均匀分布的，则它的PDF可以表示为 $u (x; a, b)$ 。对所有 $x\notin[a,b]$ ，令 $u (x; a, b) = 0$ 。在 $[a, b]$ 内，令 $u(x;a,b)=\frac{1}{b-a}$ 。可以看出，任何一点都是非负的，且积分为 $1$ 。通常，用 $\text{x}\sim{U(a,b)}$ 表示 $x$ 在 $[a, b]$ 上是均匀分布的。

4、边缘概率

有时，虽然知道了一组随机变量的联合概率分布，但是仍然想要了解其中一个子集（变量）的概率分布。这种定义在子集上(通过联合概率分布计算某个变量)的概率分布称为边缘概率分布（marginal probability distribution）。“边缘概率”的名称来源于通过网格手算这种概率的计算过程。
假设有两个随机变量 $\text{x}$ 和 $\text{y}$ ，且已知其联合概率密度 $P(\text{x,y})$ 。如果这两个变量是离散型变量，则用求和法则来计算 $P(\text{x})$ ：
$\forall{x}\in\text{x},~P(\text{x}=x)=\sum_yP(\text{x}=x,\text{y}=y) \tag{3.3}$
如果这两个变量是连续型变量，则用积分来代替求和：
$\forall{x}\in\text{x},~p(\text{x}=x)=\int{p(x,y)dy} \tag{3.4}$

5、条件概率

在一个或一些其它事件给定的情况下，某个事件发生的概率称为条件概率，如给定 $\text{x}=x$ 时， $\text{y}=y$ 发生的条件概率记作： $P(\text{y}=y|\text{x}=x)$ ，它的计算方式为：
$P(\text{y}=y|\text{x}=x)=\frac{P(\text{y}=y,\text{x}=x)}{P(\text{x}=x)} \tag{3.5}$
其中，条件概率只在 $P(\text{x}=x)>0$ 时有定义。因为不能计算给定在永远不会发生的事件上的条件概率。
注意，不要把条件概率和计算当采用某个动作后会发生什么相混淆。例如，一个人说中文，说明他是中国人的条件概率很高，但并不会因为他说中文，就能让他成为一个中国人，他的国籍不会因为他说什么语言而改变。

6、条件概率的链式法则

任何多维随机变量的联合概率分布，都可以分解成只有一个变量的条件概率相乘的形式：
$P(\text{x}^{(1)},\dots,\text{x}^{(n)})=P(\text{x}^{(1)}){\prod}_{i=2}^{n}{P(\text{x}^{(i)}|\text{x}^{(1)},\dots,\text{x}^{(i-1)})} \tag{3.6}$
这个规则被称为链式法则或者乘法法则。它可以直接由式（）的条件概率的定义得到，如：
$\begin{array}{rrl} P(\text{a},\text{b},\text{c})&=&P(\text{a}|\text{b},\text{c})P(\text{b},\text{c}) \\ P(\text{b},\text{c})&=&P(\text{b}|\text{c})P(\text{c}) \\ P(\text{a},\text{b},\text{c})&=&P(\text{a}|\text{b},\text{c})P(\text{b},\text{c}) \end{array}$

7、独立性和条件独立性

两个随机变量 $\text{x}$ 和 $\text{y}$ ，如果它们的概率分布可以表示成两个因子（函数）的乘积形式，并且一个因子只包含 $\text{x}$ ，另一个因子只包含 $\text{y}$ ，就称这两个随机变量是相互独立的（另一种解释是，两个随机变量代表状态的事件 $\text{A}$ 和 $\text{B}$ ，其是否发生不会相互影响）。
$\forall{x}\in\text{x},{y}\in\text{y},~p(\text{x}=x,\text{y}=y)=p(\text{x}=x)p(\text{y}=y) \tag{3.7}$
如果变量 $\text{x}$ 和 $\text{y}$ 的条件概率分布对于随机变量 $\text{z}$ 的每一个 $z$ 都可以写成乘积形式，就称这两个随机变量 $\text{x}$ 和 $\text{y}$ 在给定状态 $\text{z}=z$ 时是条件独立的。
$\forall{x}\in\text{x},{y}\in\text{y},{z}\in\text{z},~p(\text{x}=x,\text{y}=y|\text{z}=z)=P(\text{x}=x|\text{z}=z))P(\text{y}=y|\text{z}=z)) \tag{3.8}$
可以用另一种简化形式表示： $\text{x}\bot\text{y}$ 表示相互独立， $\text{x}\bot\text{y}|\text{z}$ 表示条件独立。

8、期望、方差和协方差

期望是指某个随机变量 $\text{x}$ 在特定分布 $P(\text{x})$ 下的平均值。同样的，函数 $f (x)$ 关于某分布 $P(\text{x})$ 的期望，也是指当 $x$ 由 $P$ 产生， $f$ 作用于 $x$ 时， $f (x)$ 的平均值。
对于离散型随机变量，可以通过求和得到：
$\Bbb{E}_{x{\sim}P}[f(x)]=\sum_x{P(x)f(x)} \tag{3.9}$
对于连续型随机变量，可以通过求积分得到：
$\Bbb{E}_{x{\sim}P}[f(x)]=\int{p(x)f(x)dx} \tag{3.10}$
期望也可以简写成 $\Bbb{E}_{x}[f(x)]$ 或 $\Bbb{E}[f(x)]$ 。
期望是线性的，例如：
$\Bbb{E}_{x}[\alpha{f(x)}+\beta{g(x)}]=\alpha\Bbb{E}_x[{f(x)}]+\beta\Bbb{E}_x[{g(x)}] \tag{3.11}$
其中， $f\alpha$ 和 $\beta$ 不依赖于 $x$ 。
方差衡量的是当对 $x$ 依据它的分布进行采样时，随机变量 $\text{x}$ 的函数值会呈现多大差异：
$\text{Var}(f(x))=\Bbb{E}[(f(x)-\Bbb{E}[f(x)])^2] \tag{3.12}$
当方差很小时， $f (x)$ 形成的簇比较接近它们的期望值。方差的平方根被称为标准差。
协方差给出了两个变量线性相关的强度以及这些变量的尺度：
$\text{Cov}(f(x),g(y))=\Bbb{E}[(f(x)-\Bbb{E}[f(x)])(g(y)-\Bbb{E}[g(y)])] \tag{3.13}$
协方差的绝对值如果很大，则意味着变量值变化很大，并且同时距离各自均值很远。如果协方差是正的，那么两个变量都倾向于同时取得相对较大的值。如果协方差是负的，那么，其中一个变量倾向于取得相对较大值的同时，另一个变量倾向于取得相对较小的值，反之亦然。
其它的衡量指标如相关系数，将每个变量的贡献归一化，为了只衡量变量的相关性而不受各个变量尺度大小的影响。
协方差和相关性是有联系的，但实际上是不同的概念。如果两个变量相互独立，那么它们的协方差为零；如果两个变量协方差不为零，那么它们一定是相关的。但是，独立性和协方差是完全不同的性质，它比零协方差要求更强。如果两个变量协方差为零，那么它们之间一定没有线性关系，但是如果两个变量相互独立，那么它们之间不但没有线性关系，也没有非线性关系。两个变量相互依赖，但是其协方差可能为零。
随机向量 $\bm{x}\in{\R}^n$ 的协方差矩阵是一个 $n{\times}n$ 的矩阵，并且满足
$\text{Cov}(\textbf{x})_{i,j}=\text{Cov}(\text{x}_i,\text{x}_j) \tag{3.14}$
协方差矩阵的对角元是方差：
$\text{Cov}(\text{x}_i,\text{x}_i)=\text{Var}(\text{x}_i) \tag{3.15}$

9、常用概率分布

9.1、Bernoulli分布

Bernoulli(伯努利)分布，是单个二值离散型随机变量的分布（也叫0-1分布，例如抛硬币，其重复多次后变成二项分布）。它由单个参数 $\phi\in[0,1]$ 控制， $\phi$ 给出了随机变量等于 $1$ 的概率，它的性质如下：
$P(\text{x}=1)=\phi \tag{3.16}$
$P(\text{x}=0)=1-\phi \tag{3.17}$
$P(\text{x}=x)={\phi}^x(1-\phi)^{1-x} \tag{3.18}$
$\Bbb{E}_x[\text{x}]=\phi \tag{3.19}$
$\text{Var}_x(\text{x})=\phi(1-\phi) \tag{3.20}$

9.2、Multinoulli分布

Multinoulli(范畴)分布，是单个 $k$ 值（具有 $k$ 个不同状态， $k$ 是一个有限值）离散型随机变量的分布（例如掷骰子，其重复多次后变成多项式分布）。它由向量参数 $\bm{p}\in[0,1]^{k-1}$ 控制， $p_i$ 表示第 $i$ 个状态的概率，最后的第 $k$ 个状态的概率通过 $1-\bm{1}^\top\bm{p}$ 给出（其中，限制 $\bm{1}^\top\bm{p}{\leqslant}1$ ）。其概率的另一种说法为状态 $i$ 发生的概率为 $p_i$ ，因为只有 $k$ 个状态，所以有 $p_1+p_2+\dots+p_k=1$ ，这种说法比上面的描述更容易理解。
Multinoulli分布经常用来表示对象分类的分布，所以很少将状态映射到实值（即假设状态1具有数值1之类的）。因此，通常不需要去计算服从 Multinoulli分布的随机变量的期望和方差。
Bernoulli分布和 Multinoulli分布足够用来描述在它们领域内的任意分布。它们能够描述这些分布，不是因为它们特别强大，而是因为它们的领域很简单；它们可以对那些，能够将所有的状态进行枚举的离散型随机变量进行建模。当处理的是连续型随机变量时，会有不可数无限多的状态，所以任何通过少量参数描述的概率分布都必须在分布上加以严格的限制。

9.3、高斯分布

实数上最常用的分布就是高斯分布，也称为正态分布:
$\mathcal{N}(x;\mu,{\sigma}^2)=\sqrt{\frac{1}{2\pi{\sigma}^2}}\exp\Big(-\frac{1}{2{\sigma}^2}(x-\mu)^2\Big) \tag{3.21}$
正态分布由两个参数控制， $\mu\in\R$ 和 $\sigma\in(0,\infty)$ 。参数 $\mu$ 给出了中心峰值的坐标，这也是分布的均值： $\Bbb{E}[\text{x}]=\mu$ 。分布的标准差用 $\sigma$ 表示，方差用 ${\sigma}^2$ 表示。其概率密度函数见下图所示：

一种更高效的参数化分布的方式是使用参数来控制分布的精度：
$\mathcal{N}(x;\mu,{\beta}^{-1})=\sqrt{\frac{\beta}{2\pi}}\exp\Big(-\frac{1}{2}\beta(x-\mu)^2\Big) \tag{3.22}$
当无法确定某个实数上分布的形式时，一般采用正态分布是比较好的选择。这是因为：
第一，很多分布的真实情况是比较接近正态分布的。且中心极限定理也说明很多独立随机变量的和近似服从正态分布。
第二，在具有相同方差的所有可能的概率分布中，正态分布在实数上具有最大的不确定性。因此可以认为，正态分布是对模型加入的先验知识量最少的分布。
正态分布可以推广到 ${\R}^n$ 空间，这种情况下称为多维正态分布，它的参数是一个正定对称矩阵 $\bm{\Sigma}$ ：
$\mathcal{N}(x;\bm{\mu},\bm{\Sigma})=\sqrt{\frac{1}{{(2\pi)}^n\det(\bm{\Sigma})}}\exp\Big(-\frac{1}{2}(\bm{x}-\bm{\mu})^\top\bm{\Sigma}^{-1}(\bm{x}-\bm{\mu})\Big) \tag{3.23}$
参数 $\bm{\mu}$ 表示分布的均值，只不过现在是向量值。参数 $\bm{\Sigma}$ 给出了分布的协方差矩阵。同样，可以使用精度矩阵 $\bm{\beta}$ 来简化：
$\mathcal{N}(x;\bm{\mu},\bm{\beta}^{-1})=\sqrt{\frac{\det(\bm{\beta})}{(2\pi)^n}}\exp\Big(-\frac{1}{2}(\bm{x}-\bm{\mu})^\top\bm{\beta}(\bm{x}-\bm{\mu})\Big) \tag{3.24}$
通常把协方差矩阵固定成一个对角阵。更简单的是各向同性正态分布，它的协方差矩阵是一个标量乘以单位阵。

9.4、指数分布和Laplace分布

在深度学习中，经常会需要一个在 $x = 0$ 点处取得边界点的分布，为了实现这一目的，可以使用指数分布：
$p(x;\lambda)=\lambda\bm{1}_{x\geqslant0}\exp{(-\lambda{x})} \tag{3.25}$
其中，用指示函数 $\bm{1}_{x\geqslant0}$ 来使得当 $x$ 取负值时的概率为零。
一个联系紧密的概率分布是Laplace分布，它允许我们在 $\mu$ 处设置概率质量的峰值：
$\text{Laplace}(x;\mu,\gamma)=\frac{1}{2\gamma}\exp{(-\frac{|x-\mu|}{\gamma})} \tag{3.26}$

9.5、Dirac分布和经验分布

在一些情况下，我们希望概率分布中的所有质量都集中在一个点上，可以通过Dirac delta函数定义概率密度来实现：
$p(x)=\delta{(x-\mu)} \tag{3.27}$
Dirac delta函数是一个广义函数，是依据积分性质定义的数学对象。它被定义成除了 $0$ 以外的所有点的值都是 $0$ ，但积分是 $1$ 。可以把它想象成一系列函数的极限点，即这一系列函数把除 $0$ 以外的所有点的概率密度越变越小。
通过把 $p (x)$ 定义成 $\delta$ 函数左移 $-\mu$ 个单位，可以得到一个在 $x=\mu$ 处无限窄又无限高的峰值的概率质量（这在物理上称为脉冲函数）。
Dirac分布经常作为经验分布的组成部分出现：
$\hat{p}(x)=\frac{1}{m}\sum_{i=1}^{m}\delta{(\bm{x}-\bm{x}^{(i)})} \tag{3.28}$
经验分布将概率密度 $\frac{1}{m}$ 赋给 $m$ 个点 $x^{(1)},\dots,{x}^{(m)}$ 中的每一个，这些点是给定的数据集或者采样的集合。只有在定义连续型随机变量的经验分布时，Dirac delta函数才是有必要的。因为离散型随机变量的经验分布可以被定义成Multinoulli分布，并且其概率可设置为在训练集上的那个输入值的经验频率。
当我们在训练集上训练模型时，可以认为从这个训练集上得到的经验分布指明了采样来源(包含这个训练集的原始数据)的分布（即泛化能力）。另外，经验分布是训练数据的似然最大的的那个概率密度函数。

9.6、分布的混合

通过组合一些简单的概率分布来定义新的概率分布也是很常见的。一种通用的组合方法是构造混合分布（mixture distribution）。混合分布由一些分布作为组件(component)构成，每次实验，样本是由哪个组件分布产生的，取决于从一个Multinoulli分布中采样的结果：
$P(\text{x})=\sum_{i}P(c=i)P(\text{x}|c=i) \tag{3.29}$
其中， $P (c)$ 是对各组件的一个Multinoulli分布。
实值变量的经验分布就是一个混合分布的例子。
混合模型是组合简单概率分布来生成更复杂分布的一种简单策略，后面会更加详细的讨论这类技术。
混合模型使我们能够一瞥以后会用到一个非常重要的概念——潜变量(latent variable)。潜变量是我们不能直接观测到的随机变量，比如混合模型中的组件标识变量 $c$ 就是一个潜变量。潜变量的分布在联合分布中可能和 $\text{x}$ 有关，在这种情况下， $P(\text{x},c)=P(\text{x}|c)P(c)$ ，此时，潜变量的分布 $P (c)$ 和关联潜变量和观测变量的条件分布 $P(\text{x}|c)$ ，共同决定了分布 $P(\text{x})$ 的形状。
一个非常强大且常见的混合模型是高斯混合模型，它的组件 $P(\text{x}|c=i)$ 是高斯分布。每个组件都有各自的参数，均值 $\bm{\mu}^{(i)}$ 和协方差矩阵 $\bm{\Sigma}^{(i)}$ 。还有一些混合可能有更多的限制，比如，协方差矩阵可以通过 $\bm{\Sigma}^{(i)}=\bm{\Sigma},\forall{i}$ 的形式在组件之间共享参数。
除了均值和方差以外，高斯混合模型的参数指明了给每个组件 $i$ 的先验概率 $\alpha_i=P(c=i)$ 。“先验”表明了在观测到 $\text{x}$ 之前传递给模型关于 $c$ 的信念。作为对比， $P(c|\text{x})$ 是后验概率，因为它是在观测到 $\text{x}$ 之后进行计算的。
高斯混合模型是概率密度的万能近似器，任何平滑的概率密度都可以用具有足够多组件的高斯混合模型来逼近。如下图：