3.概率论与信息论

概率论是用于表示不确定性声明的数学框架。它不仅提供了量化不确定性的方法,也提供了用于导出新的不确定性 声明(statement)的公理。

首先,概率法则告诉我们 AI 系统如何推理,据此我们设计一些算法来计算或者估算由概率论导出的表达式。其次,我们可以用概率和统计从理论上分析我们提出的 AI 系统的行为。

概率论使我们能够提出不确定的声明以及在不确定性存在的情况下进行推理,而信息论使我们能够量化概率分布中的不确定性总量

 

为什么使用概率

不确定性有三种可能的来源:

    被建模系统内在的随机性

    不完全观测

    不完全建模。

 

我们用概率来表示一种 信任度(degree of belief)

频率派概率(frequentist probability)

贝叶斯概率(Bayesian probability

关于不确定性的常识推理,如果我们已经列出了若干条我们期望它具有的性质,
那么满足这些性质的唯一一种方法就是将贝叶斯概率和频率派概率视为等同的。

 

随机变量(random variable)是可以随机地取不同值的变量。

概率分布(probability distribution)用来描述随机变量或一簇随机变量在每一个可能取到的状态的可能性大小

离散型变量和概率质量函数

离散型变量的概率分布可以用 概率质量函数(probability mass function, PMF)来描述。

有时我们会先定义一个随机变量,然后用 ∼ 符号来说明它遵循的分布:x ∼ P(x)

概率质量函数可以同时作用于多个随机变量。这种多个变量的概率分布被称为 联合概率分布(joint probability distribution)。P(x, y)

连续型变量和概率密度函数

当研究的对象是连续型随机变量时,我们用 概率密度函数(probabilitydensity function, PDF)

概率密度函数 p(x) 并没有直接对特定的状态给出概率,相对的,它给出了落在面积为 δx 的无限小的区域内的概率为 p(x)δx。

边缘概率

有时候,我们知道了一组变量的联合概率分布,但想要了解其中一个子集的概率分布。这种定义在子集上的概率分布被称为 边缘概率分布(marginal probability distribution)。

条件概率

某个事件,在给定其他事件发生时出现的概率。这种概率叫做条件概率

这里需要注意的是,不要把条件概率和计算当采用某个动作后会发生什么相混淆。假定某个人说德语,那么他是德国人的条件概率是非常高的,但是如果随机选择的一个人会说德语,他的国籍不会因此而改变。计算一个行动的后果被称为 干预查询(intervention query)。干预查询属于 因果模型(causal modeling)的范畴

条件概率的 链式法则(chain rule)或者 乘法法则(product rule):任何多维随机变量的联合概率分布,都可以分解成只有一个变量的条件概率相乘的形式

一种简化形式来表示独立性和条件独立性:x⊥y 表示 x 和 y 相互独立,x⊥y | z 表示 x 和 y 在给定 z 时条件独立

期望、方差和协方差

函数 f(x) 关于某分布 P(x) 的 期望(expectation)或者 期望值(expectedvalue)是指,当 x 由 P 产生,f 作用于 x 时,f(x) 的平均值。对于离散型随机变量,这可以通过求和得到,对于连续型随机变量可以通过求积分得到

当概率分布在上下文中指明时,我们可以只写出期望作用的随机变量的名称来进行简化,例如 Ex[f(x)]。如果期望作用的随机变量也很明确,我们可以完全不写脚标,就像 E[f(x)]。默认地,我们假设 E[·] 表示对方括号内的所有随机变量的值求平均。类似的,当没有歧义时,我们还可以省略方括号

期望是线性的,例如,Ex[αf(x) + βg(x)] = αEx[f(x)] + βEx[g(x)], 其中 α 和 β 不依赖于 x。

方差(variance)衡量的是当我们对 x 依据它的概率分布进行采样时,随机变量 x 的函数值会呈现多大的差异

  Var(f(x)) = E[(f(x) − E[f(x)])2]
当方差很小时,f(x) 的值形成的簇比较接近它们的期望值。方差的平方根被称为 标准差(standard deviation)。

协方差(covariance)在某种意义上给出了两个变量线性相关性的强度以及这些变量的尺度:

  Cov(f(x), g(y)) = E[(f(x) − E[f(x)])(g(y) − E[g(y)])].

协方差的绝对值如果很大则意味着变量值变化很大并且它们同时距离各自的均值很远。如果协方差是正的,那么两个变量都倾向于同时取得相对较大的值。如果协方差是负的,那么其中一个变量倾向于取得相对较大的值的同时,另一个变量倾向于取得相对较小的值,反之亦然。

其他的衡量指标如 相关系数(correlation)将每个变量的贡献归一化,为了只衡量变量的相关性而不受各个变量尺度大小的影响。

协方差和相关性是有联系的,但实际上是不同的概念。它们是有联系的,因为两个变量如果相互独立那么它们的协方差为零,如果两个变量的协方差不为零那么它们一定是相关的。然而,独立性又是和协方差完全不同的性质。两个变量如果协方差为零,它们之间一定没有线性关系。独立性比零协方差的要求更强,因为独立性还排除了非线性的关系。两个变量相互依赖但具有零协方差是可能的。

例如,假设我们首先从区间 [−1, 1] 上的均匀分布中采样出一个实数 x。然后我们对一个随机变量 s 进行采样。s 以 12 的概率值为 1,否则为-1。我们可以通过令 y = sx 来生成一个随机变量 y。显然,x 和 y 不是相互独立的,因为 x 完全决定了 y 的尺度。然而,Cov(x, y) = 0

协方差矩阵(covariance matrix)的对角元是方差

常用概率分布

Bernoulli 分布(Bernoulli distribution)是单个二值随机变量的分布。

 Multinoulli 分布(multinoulli distribution)或者 范畴分布(categorical distribution)是指在具有 k 个不同状态的单个离散型机变量上的分布,其中 k 是一个有限值。

注意我们必须限制 1⊤p ≤ 1。Multinoulli 分布经常用来表示对象分类的分布,所以我们很少假设状态 1 具有数值 1 之类的。因此,我们通常不需要去计算 Multinoulli 分布的随机变量的期望和方差

Multinoulli 分布是 多项式分布(multinomial distribution)的一个特例,多项式分布是 {0, . . . , n}k 中的向量的分布,用于表示当
对 Multinoulli 分布采样 n 次时 k 个类中的每一个被访问的次数。很多文章使用 “多项式分布’’ 而实际上说的是 Multinoulli 分布,但是他们并没有说是对 n = 1 的情况,这点需要注意。

实数上最常用的分布就是 正态分布(normal distribution),也称为 高斯分布(Gaussian distribution)

当我们要对概率密度函数求值时,我们需要对 σ 平方并且取倒数。当我们需要经常对不同参数下的概率密度函数求值时,一种更高效的参数化分布的方式是使用参数 β ∈ (0, ∞),来控制分布的 精度(precision)(或方差的倒数,就是把方差用方差倒数β代替)。

正态分布是比较好的选择:

  第一,我们想要建模的很多分布的真实情况是比较接近正态分布的。 中心极限定理(central limit theorem)说明很多独立随机变量的和近似服从正态分布。这意味着在实际中,很多复杂系统都可以被成功地建模成正态分布的噪声,即使系统可以被分解成一些更结构化的部分

  第二,在具有相同方差的所有可能的概率分布中,正态分布在实数上具有最大的不确定性。因此,我们可以认为正态分布是对模型加入的先验知识量最少的分布

正态分布可以推广到 Rn 空间,这种情况下被称为 多维正态分布(multivariatenormal distribution)。它的参数是一个正定对称矩阵 Σ。参数 µ 仍然表示分布的均值,只不过现在是向量值。参数 Σ 给出了分布的协方差矩阵。

当我们希望对很多不同参数下的概率密度函数多次求值时,协方差矩阵并不是一个很高效的参数化分布的方式,因为对概率密度函数求值时需要对 Σ 求逆。我们可以使用一个 精度矩阵(precision matrix)β 进行替代

我们常常把协方差矩阵固定成一个对角阵。一个更简单的版本是 各向同性(isotropic)高斯分布,它的协方差矩阵是一个标量乘以单位阵。

指数分布(exponential distribution),一个在 x = 0 点处取得边界点 (sharp point) 的分布。指数分布使用指示函数(indicator function)1x≥0 来使得当 x 取负值时的概率为零

一个联系紧密的概率分布是 Laplace 分布(Laplace distribution),它允许我们在任意一点 µ 处设置概率质量的峰值

 Dirac delta 函数(Dirac delta function)δ(x) 定义概率密度函数来实现望概率分布中的所有质量都集中在一个点上

Diracdelta 函数不像普通函数一样对 x 的每一个值都有一个实数值的输出,它是一种不同类型的数学对象,被称为 广义函数(generalized function),广义函数是依据积分性质定义的数学对象

可以把 Dirac delta 函数想成一系列函数的极限点,这一系列函数把除 0 以外的所有点的概率密度越变越小

Dirac 分布经常作为 经验分布(empirical distribution)的一个组成部分出现

当我们在训练集上训练模型时,我们可以认为从这个训练集上得到的经验分布指明了我们采样来源的分布。关于经验分布另外一种重要的观点是,它是训练数据的似然最大的那个概率密度函数

通过组合一些简单的概率分布来定义新的概率分布也是很常见的。一种通用的组合方法是构造 混合分布(mixture distribution)。

一个非常强大且常见的混合模型是 高斯混合模型(Gaussian Mixture Model)

除了均值和协方差以外,高斯混合模型的参数指明了给每个组件 i 的 先验概率(prior probability)αi = P(c = i)。‘‘先验’’ 一词表明了在观测到 x 之前传递给模型关于 c 的信念。作为对比,P(c | x) 是 后验概率(posterior probability),因为它是在观测到 x 之后进行计算的。

高斯混合模型是概率密度的 万能近似器(universalapproximator),在这种意义下,任何平滑的概率密度都可以用具有足够多组件的高斯混合模型以任意精度来逼近。

常用函数的有用性质

 

logistic sigmoid 函数:logistic sigmoid 函数通常用来产生 Bernoulli 分布中的参数 ϕ,sigmoid 函数在变量取绝对值非常大的正值或负值时会出现 饱和(saturate)现象,意味着函数会变得很平,并且对输入的微小改变会变得不敏感

softplus 函数(softplus function):ζ(x) = log(1 + exp(x)).

softplus 函数可以用来产生正态分布的 β 和 σ 参数,因为它的范围是 (0, ∞)。当处理包含 sigmoid 函数的表达式时它也经常出现

softplus 函数被设计成 正部函数(positive part function)的平滑版本,这个正部函数是指 x+ = max{0, x}。与正部函数相对的是 负部函数(negative part function)x− = max{0, −x}。为了获得类似负部函数的一个平滑函数,我们可以使用 ζ(−x)。就像 x 可以用它的正部和负部通过等式 x+ − x− = x 恢复

贝叶斯规则

连续型变量的技术细节

测度论(measure theory)

零测度(measure zero)’

几乎处处(almost everywhere)’

信息论

信息论的基本想法是一个不太可能的事件居然发生了,要比一个非常可能的事件发生,能提供更多的信息

• 非常可能发生的事件信息量要比较少,并且极端情况下,确保能够发生的事件应该没有信息量。
• 较不可能发生的事件具有更高的信息量。
• 独立事件应具有增量的信息。例如,投掷的硬币两次正面朝上传递的信息量,应该是投掷一次硬币正面朝上的信息量的两倍。

自信息(self-information):I(x) = − log P(x)

我们总是用 log 来表示自然对数,其底数为 e。因此我们定义的 I(x) 单位是 奈特(nats)。一奈特是以 1e 的概率观测到一个事件时获得的信息量。其他的材料中使用底数为 2 的对数,单位是 比特(bit)或者 香农(shannons);通过比特度量的信息只是通过奈特度量信息的常数倍。

自信息只处理单个的输出。我们可以用 香农熵(Shannon entropy)来对整个概率分布中的不确定性总量进行量化

换言之,一个分布的香农熵是指遵循这个分布的事件所产生的期望信息总量

那些接近确定性的分布 (输出几乎可以确定) 具有较低的熵;那些接近均匀分布的概率分布具有较高的熵。当 x 是连续的,香农熵被称为 微分熵(differential entropy)。

如果我们对于同一个随机变量 x 有两个单独的概率分布 P(x) 和 Q(x),我们可以使用 KL 散度(Kullback-Leibler (KL) divergence)来衡量这两个分布的差异

在离散型变量的情况下,KL 散度衡量的是,当我们使用一种被设计成能够使得概率分布 Q 产生的消息的长度最小的编码,发送包含由概率分布 P 产生的符号的消息时,所需要的额外信息量 (如果我们使用底数为 2 的对数时,信息量用比特衡量,但在机器学习中,我们通常用奈特和自然对数。)

因为 KL 散度是非负的并且衡量的是两个分布之间的差异,它经常被用作分布之间的某种距离。然而,它并不是真的距离因为它不是对称的

一个和 KL 散度密切联系的量是 交叉熵(cross-entropy),它和 KL 散度很像但是缺少左边一项

针对 Q 最小化交叉熵等价于最小化 KL 散度,因为 Q 并不参与被省略的那一项。当我们计算这些量时,经常会遇到 0 log 0 这个表达式。按照惯例,在信息论中, 我们将这个表达式处理为 limx→0 x log x = 0。

结构化概率模型

结构化概率模型(structured probabilistic model)或者 图模型(graphical model)

有两种主要的结构化概率模型:有向的和无向的。两种图模型都使用图 G,其中图的每个节点对应着一个随机变量,连接两个随机变量的边意味着概率分布可以表示成这两个随机变量之间的直接作用。

有向(directed)模型使用带有有向边的图,它们用条件概率分布来表示分解

无向(undirected)模型使用带有无向边的图,它们将分解表示成一组函数

随机变量的联合概率与所有这些因子的乘积 成比例(proportional)——意味着因子的值越大则可能性越大。

请记住,这些图模型表示的分解仅仅是描述概率分布的一种语言。它们不是互相排斥的概率分布族。有向或者无向不是概率分布的特性;它是概率分布的一种特殊 描述(description)所具有的特性,而任何概率分布都可以用这两种方式进行描述。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值