3.概率论与信息论

最新推荐文章于 2021-10-23 18:10:42 发布

whieper

最新推荐文章于 2021-10-23 18:10:42 发布

阅读量669

点赞数

分类专栏：深度学习笔记

本文链接：https://blog.csdn.net/qq_42208267/article/details/85340201

版权

深度学习笔记专栏收录该内容

2 篇文章 0 订阅

订阅专栏

概率论是用于表示不确定性声明的数学框架。它不仅提供了量化不确定性的方法，也提供了用于导出新的不确定性声明（statement）的公理。

首先，概率法则告诉我们 AI 系统如何推理，据此我们设计一些算法来计算或者估算由概率论导出的表达式。其次，我们可以用概率和统计从理论上分析我们提出的 AI 系统的行为。

概率论使我们能够提出不确定的声明以及在不确定性存在的情况下进行推理，而信息论使我们能够量化概率分布中的不确定性总量

为什么使用概率

不确定性有三种可能的来源：

被建模系统内在的随机性

不完全观测

不完全建模。

我们用概率来表示一种信任度（degree of belief）

频率派概率（frequentist probability）

贝叶斯概率（Bayesian probability

关于不确定性的常识推理，如果我们已经列出了若干条我们期望它具有的性质，
那么满足这些性质的唯一一种方法就是将贝叶斯概率和频率派概率视为等同的。

随机变量（random variable）是可以随机地取不同值的变量。

概率分布（probability distribution）用来描述随机变量或一簇随机变量在每一个可能取到的状态的可能性大小

离散型变量和概率质量函数

离散型变量的概率分布可以用概率质量函数（probability mass function, PMF）来描述。

有时我们会先定义一个随机变量，然后用 ∼ 符号来说明它遵循的分布：x ∼ P(x)

概率质量函数可以同时作用于多个随机变量。这种多个变量的概率分布被称为联合概率分布（joint probability distribution）。P(x, y)

连续型变量和概率密度函数

当研究的对象是连续型随机变量时，我们用概率密度函数（probabilitydensity function, PDF）

概率密度函数 p(x) 并没有直接对特定的状态给出概率，相对的，它给出了落在面积为 δx 的无限小的区域内的概率为 p(x)δx。

边缘概率

有时候，我们知道了一组变量的联合概率分布，但想要了解其中一个子集的概率分布。这种定义在子集上的概率分布被称为边缘概率分布（marginal probability distribution）。

条件概率

某个事件，在给定其他事件发生时出现的概率。这种概率叫做条件概率

这里需要注意的是，不要把条件概率和计算当采用某个动作后会发生什么相混淆。假定某个人说德语，那么他是德国人的条件概率是非常高的，但是如果随机选择的一个人会说德语，他的国籍不会因此而改变。计算一个行动的后果被称为干预查询（intervention query）。干预查询属于因果模型（causal modeling）的范畴

条件概率的链式法则（chain rule）或者乘法法则（product rule）：任何多维随机变量的联合概率分布，都可以分解成只有一个变量的条件概率相乘的形式

一种简化形式来表示独立性和条件独立性：x⊥y 表示 x 和 y 相互独立，x⊥y | z 表示 x 和 y 在给定 z 时条件独立

期望、方差和协方差

函数 f(x) 关于某分布 P(x) 的期望（expectation）或者期望值（expectedvalue）是指，当 x 由 P 产生，f 作用于 x 时，f(x) 的平均值。对于离散型随机变量，这可以通过求和得到，对于连续型随机变量可以通过求积分得到

当概率分布在上下文中指明时，我们可以只写出期望作用的随机变量的名称来进行简化，例如 Ex[f(x)]。如果期望作用的随机变量也很明确，我们可以完全不写脚标，就像 E[f(x)]。默认地，我们假设 E[·] 表示对方括号内的所有随机变量的值求平均。类似的，当没有歧义时，我们还可以省略方括号

期望是线性的，例如，Ex[αf(x) + βg(x)] = αEx[f(x)] + βEx[g(x)], 其中 α 和 β 不依赖于 x。

方差（variance）衡量的是当我们对 x 依据它的概率分布进行采样时，随机变量 x 的函数值会呈现多大的差异

Var(f(x)) = E[(f(x) − E[f(x)])2]
当方差很小时，f(x) 的值形成的簇比较接近它们的期望值。方差的平方根被称为标准差（standard deviation）。

协方差（covariance）在某种意义上给出了两个变量线性相关性的强度以及这些变量的尺度：

Cov(f(x), g(y)) = E[(f(x) − E[f(x)])(g(y) − E[g(y)])].

协方差的绝对值如果很大则意味着变量值变化很大并且它们同时距离各自的均值很远。如果协方差是正的，那么两个变量都倾向于同时取得相对较大的值。如果协方差是负的，那么其中一个变量倾向于取得相对较大的值的同时，另一个变量倾向于取得相对较小的值，反之亦然。

其他的衡量指标如相关系数（correlation）将每个变量的贡献归一化，为了只衡量变量的相关性而不受各个变量尺度大小的影响。

协方差和相关性是有联系的，但实际上是不同的概念。它们是有联系的，因为两个变量如果相互独立那么它们的协方差为零，如果两个变量的协方差不为零那么它们一定是相关的。然而，独立性又是和协方差完全不同的性质。两个变量如果协方差为零，它们之间一定没有线性关系。独立性比零协方差的要求更强，因为独立性还排除了非线性的关系。两个变量相互依赖但具有零协方差是可能的。

例如，假设我们首先从区间 [−1, 1] 上的均匀分布中采样出一个实数 x。然后我们对一个随机变量 s 进行采样。s 以 12 的概率值为 1，否则为-1。我们可以通过令 y = sx 来生成一个随机变量 y。显然，x 和 y 不是相互独立的，因为 x 完全决定了 y 的尺度。然而，Cov(x, y) = 0

协方差矩阵（covariance matrix）的对角元是方差

常用概率分布

Bernoulli 分布（Bernoulli distribution）是单个二值随机变量的分布。

Multinoulli 分布（multinoulli distribution）或者范畴分布（categorical distribution）是指在具有 k 个不同状态的单个离散型机变量上的分布，其中 k 是一个有限值。

注意我们必须限制 1⊤p ≤ 1。Multinoulli 分布经常用来表示对象分类的分布，所以我们很少假设状态 1 具有数值 1 之类的。因此，我们通常不需要去计算 Multinoulli 分布的随机变量的期望和方差

Multinoulli 分布是多项式分布（multinomial distribution）的一个特例，多项式分布是 {0, . . . , n}k 中的向量的分布，用于表示当
对 Multinoulli 分布采样 n 次时 k 个类中的每一个被访问的次数。很多文章使用 “多项式分布’’ 而实际上说的是 Multinoulli 分布，但是他们并没有说是对 n = 1 的情况，这点需要注意。

实数上最常用的分布就是正态分布（normal distribution），也称为高斯分布（Gaussian distribution）

当我们要对概率密度函数求值时，我们需要对 σ 平方并且取倒数。当我们需要经常对不同参数下的概率密度函数求值时，一种更高效的参数化分布的方式是使用参数 β ∈ (0, ∞)，来控制分布的精度（precision）(或方差的倒数，就是把方差用方差倒数β代替)。

正态分布是比较好的选择：

第一，我们想要建模的很多分布的真实情况是比较接近正态分布的。中心极限定理（central limit theorem）说明很多独立随机变量的和近似服从正态分布。这意味着在实际中，很多复杂系统都可以被成功地建模成正态分布的噪声，即使系统可以被分解成一些更结构化的部分

第二，在具有相同方差的所有可能的概率分布中，正态分布在实数上具有最大的不确定性。因此，我们可以认为正态分布是对模型加入的先验知识量最少的分布

正态分布可以推广到 Rn 空间，这种情况下被称为多维正态分布（multivariatenormal distribution）。它的参数是一个正定对称矩阵 Σ。参数 µ 仍然表示分布的均值，只不过现在是向量值。参数 Σ 给出了分布的协方差矩阵。

当我们希望对很多不同参数下的概率密度函数多次求值时，协方差矩阵并不是一个很高效的参数化分布的方式，因为对概率密度函数求值时需要对 Σ 求逆。我们可以使用一个精度矩阵（precision matrix）β 进行替代

我们常常把协方差矩阵固定成一个对角阵。一个更简单的版本是各向同性（isotropic）高斯分布，它的协方差矩阵是一个标量乘以单位阵。

指数分布（exponential distribution），一个在 x = 0 点处取得边界点 (sharp point) 的分布。指数分布使用指示函数(indicator function)1x≥0 来使得当 x 取负值时的概率为零

一个联系紧密的概率分布是 Laplace 分布（Laplace distribution），它允许我们在任意一点 µ 处设置概率质量的峰值

Dirac delta 函数（Dirac delta function）δ(x) 定义概率密度函数来实现望概率分布中的所有质量都集中在一个点上

Diracdelta 函数不像普通函数一样对 x 的每一个值都有一个实数值的输出，它是一种不同类型的数学对象，被称为广义函数（generalized function），广义函数是依据积分性质定义的数学对象

可以把 Dirac delta 函数想成一系列函数的极限点，这一系列函数把除 0 以外的所有点的概率密度越变越小

Dirac 分布经常作为经验分布（empirical distribution）的一个组成部分出现

当我们在训练集上训练模型时，我们可以认为从这个训练集上得到的经验分布指明了我们采样来源的分布。关于经验分布另外一种重要的观点是，它是训练数据的似然最大的那个概率密度函数

通过组合一些简单的概率分布来定义新的概率分布也是很常见的。一种通用的组合方法是构造混合分布（mixture distribution）。

一个非常强大且常见的混合模型是高斯混合模型（Gaussian Mixture Model）

除了均值和协方差以外，高斯混合模型的参数指明了给每个组件 i 的先验概率（prior probability）αi = P(c = i)。‘‘先验’’ 一词表明了在观测到 x 之前传递给模型关于 c 的信念。作为对比，P(c | x) 是后验概率（posterior probability），因为它是在观测到 x 之后进行计算的。

高斯混合模型是概率密度的万能近似器（universalapproximator），在这种意义下，任何平滑的概率密度都可以用具有足够多组件的高斯混合模型以任意精度来逼近。

常用函数的有用性质

logistic sigmoid 函数：logistic sigmoid 函数通常用来产生 Bernoulli 分布中的参数 ϕ，sigmoid 函数在变量取绝对值非常大的正值或负值时会出现饱和（saturate）现象，意味着函数会变得很平，并且对输入的微小改变会变得不敏感

softplus 函数（softplus function）：ζ(x) = log(1 + exp(x)).

softplus 函数可以用来产生正态分布的 β 和 σ 参数，因为它的范围是 (0, ∞)。当处理包含 sigmoid 函数的表达式时它也经常出现

softplus 函数被设计成正部函数（positive part function）的平滑版本，这个正部函数是指 x+ = max{0, x}。与正部函数相对的是负部函数（negative part function）x− = max{0, −x}。为了获得类似负部函数的一个平滑函数，我们可以使用 ζ(−x)。就像 x 可以用它的正部和负部通过等式 x+ − x− = x 恢复