《深度学习（花书）》学习笔记——第三章

最新推荐文章于 2022-11-14 21:14:38 发布

阅读文献自力更生

最新推荐文章于 2022-11-14 21:14:38 发布

阅读量1k

点赞数

文章标签：深度学习

本文链接：https://blog.csdn.net/qq_40791966/article/details/102537132

版权

《深度学习（花书）》学习笔记——第三章

3.1 - 为什么要使用概率

机器学习通常必须处理不确定量

几乎所有活动都需要一些在不确定性存在的情况下进行推理的能力。不确定性有三种可能的来源

被建模系统内在的随机性；
不完全观测：即使对于确定的系统，我们无法观测到所有驱动系统行为的变量时，该系统也会出现随机性；
不完全建模：我们使用的模型可能必须舍弃某些观测信息，舍弃的信息会导致模型的预测出现不确定性。

很多情况下，使用一些简单而不确定的规则要比复杂而确定的规则更为实用: 多数鸟儿都会飞 VS 除了那些还没学会飞翔的幼鸟，因为生病或是受伤而失去了

通过概率来表示一种信任度，设计确定性水平——贝叶斯概率

逻辑提供一套形式化的规则，在给定某些命题是真是假的情况下判断另外一些命题的真假

概率论提供一套形式化的规则，在给定一些命题的似然后，计算其他命题为真的似然

3.2 - 随机变量

1.定义：random variable.可以随机地取不同值的变量，可以为离散或连续的

通常：无格式字体的小写字母表示随机变量本身，手写体小写字母表示其取值。

3.3 - 概率分布

1.定义：描述随机变量或一族随机变量在每个可能取到的状态的可能性大小

2.离散型变量和概率质量函数

概率质量函数 P（probability mass function, PMF）用来描述离散型变量的概率分布，通常每一个随机变量都会有一个不同的概率质量函数

概率质量函数将随机变量能够取得的每个状态映射到随机变量取得该状态的概率。x = x（手写体）的概率用 P(x) 来表示，1表示对应状态取值的情况为确定的，0表示该状态不可能发生。

通常用法：定义一个随机变量，然后用 ∼ 符号来说明它遵循的分布：x∼ P(x)

概率质量函数同时作用于多个随机变量 —— 联合概率分布（joint probability distribution）。P(x = x,y = y) 表示 x = x 和 y = y 同时发生的概率，简写为 P(x,y)

概率质量函数需满足的条件

P 的定义域必须是 x 所有可能状态的集合；
∀x ∈ x,0 ≤ P(x) ≤ 1. 不可能发生的事件概率为 0，且不存在比这概率更低的状态。能够确保一定发生的事件概率为 1，且不存在比这概率更高的状态；
归一化（normalized）：∑x∈x P(x) = 1。如果没有这条性质。均匀分布。

3.连续型变量和概率密度函数

概率密度函数（probability density function, PDF）来描述连续型随机变量的概率分布。

概率密度函数需满足的条件：

p 的定义域必须是 x 所有可能状态的集合；
∀x ∈x,p(x) ≥ 0. 注意，此处并不要求 p(x) ≤ 1；
∫p(x)dx = 1。

概率密度函数给出了落在长度为 δx 的无限小的区域内的概率为 p(x)δx，对概率密度函数求积分来获得点集的真实概率质量。单变量中，x 落在区间 [a,b]的概率是∫[a,b] p(x)dx。

实数区间[a,b]上的均匀分布。

3.4 边缘分布

定义:知道了一组变量的联合概率分布，想要了解其中一个子集的概率分布 —— 边缘概率分布

求取方式：

离散型：离散型随机变量 x 和 y，知道 P(x,y)，则P(x）= ∀x ∈x,P(x = x) =∑P(x = x,y = y)；
连续型：积分替代求和。p(x) =∫ p(x,y)dy。

3.5 条件概率

感兴趣的为某个事件在给定其他事件发生时出现的概率 —— 条件概率。

P(y = y |x = x) = P(y = y,x = x)/ P(x = x) ：给定x下y发生的概率

链式法则：任何多维随机变量的联合概率分布，都可以分解成只有一个变量的条件概率相乘的形式

P(x(1),…,x(n)) = P(x(1))*ΠP(x(i) |x(1),…,x(i−1))

P(a,b,c) = P(a|b,c)P(b,c)
P(b,c) = P(b|c)P©
P(a,b,c) = P(a|b,c)P(b|c)P©.

3.6 独立性和条件独立性

独立

两个随机变量 x 和 y 的概率分布可以表示成两个因子的乘积形式，且一个因子只包含 x 另一个因子只包含 y，称这两个随机变量是相互独立的:
∀x ∈x,y ∈y,p(x = x,y = y) = p(x = x)p(y = y).

条件独立

关于 x 和 y 的条件概率分布对于 z 的每一个值都可以写成乘积的形式，那么这两个随机变量 x 和 y 在给定随机变量 z 时是条件独立的：
∀x ∈x,y ∈y,z ∈z,
p(x = x,y = y |z = z) = p(x = x |z = z)p(y = y |z = z).

x⊥y 表示 x 和 y 相互独立，x⊥y|z 表示 x 和 y 在给定 z 时条件独立。

3.7 期望，方差和协方差

x 的概率分布由 P 表示，f 为关于 x 的函数，f(x) 的平均值即为函数 f(x) 关于某分布 P(x) 的期望

计算方法：

离散型：Ex∼P[f(x)] =∑P(x)f(x)；
连续型：Ex∼p[f(x)] =∫ p(x)f(x)dx

期望满足线性：Ex[αf(x) + βg(x)] = αEx[f(x)] + βEx[g(x)]

方差衡量的是当我们对 x 依据它的概率分布进行采样时，随机变量 x 的函数值会呈现多大的差异

计算方法：Var(f(x)) = E[(f(x)−E[f(x)])2]

设C为常数，则D© = 0（常数无波动）

D(CX )=C2D(X ) （常数平方提取，C为常数，X为随机变量）

方差的平方根被称为标准差

协方差给出两个变量线性相关性的强度以及这些变量的尺度

计算方法：Cov(f(x),g(y)) = E[(f(x)−E[f(x)])(g(y)−E[g(y)])].

实用意义：
协方差的绝对值如果很大则意味着变量值变化很大并且它们同时距离各自的均值很远。如果协方差是正的，那么两个变量都倾向于同时取得相对较大的值。如果协方差是负的，那么其中一个变量倾向于取得相对较大的值的同时，另一个变量倾向于取得相对较小的值，反之亦然。

协方差和相关性，独立性的联系：

两个变量如果相互独立那么它们的协方差为零，如果两个变量的协方差不为零那么它们一定是相关的；
两个变量如果协方差为零，它们之间一定没有线性关系；
独立性比零协方差的要求更强，独立性还排除了非线性的关系。而两个变量相互依赖但具有零协方差是可能的
总的来说就是：协方差为0就是不相关，独立可推出不相关，但不相关并不能推出独立。不相关是指两个随机变量没有近似的线性关系，而独立是指两个变量没有任何关系

协方差矩阵

是一个 n×n 的矩阵，并且满足 Cov(x)i,j = Cov(xi,xj)
协方差矩阵的对角元是方差：Cov(xi,xi) = Var(xi）

3.8 常用概率分布

1. Bernoull分布（0—1分布）—— 单个二值随机变量的分布

由单个参数 ϕ ∈ [0,1] 控制，ϕ 给出了随机变量等于 1 的概率

性质：
P(x = 1) = ϕ
P(x = 0) = 1−ϕ
P(x = x) = ϕx(1−ϕ)1−x
Ex[x] = ϕ
Varx(x) = ϕ(1−ϕ)

2. Multinoulli 分布

指在具有 k 个不同状态的单个离散型随机变量上的分布，其中 k 是一个有限值。由向量 p∈ [0,1]k−1 参数化，其中每一个分量 pi 表示第 i 个状态的概率。最后的第 k 个状态的概率可以通过 1−1⊤p 给出。必须限制 1⊤p≤ 1

经常用来表示对象分类的分布，很少假设很少假设状态 1 具有数值 1 之类的，故通常不需要去计算 Multinoulli 分布的随机变量的期望和方差。

CSDN Multinoulli分布与多项式分布

3. 高斯分布（正态分布）

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-UWzJ7u7T-1573372272339)(./assert/3.1.png)]

概率密度函数图像
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-EdLUQEHQ-1573372272340)(./assert/3.2.png)]

正态分布 N(x;µ,σ2) 呈现经典的 ‘‘钟形曲线’’ 的形状，其中中心峰的 x 坐标由 µ 给出，峰的宽度受 σ 控制。在这个示例中，我们展示的是标准正态分布（standard normal distribution），其中 µ = 0,σ = 1。

参数 µ 给出了中心峰值的坐标，亦为分布的均值：E[x] = µ。分布的标准差用 σ 表示，方差用 σ2 表示。

当我们由于缺乏关于某个实数上分布的先验知识而不知道该选择怎样的形式时，正态分布是默认的比较好的选择，两个原因：

建模的很多分布的真实情况是比较接近正态分布。中心极限定理（central limit theorem）说明很多独立随机变量的和近似服从正态分布。这意味着在实际中，很多复杂系统都可以被成功地建模成正态分布的噪声，即使系统可以被分解成一些更结构化的部分。

中心极限定理 —— 在适当的条件下，大量相互独立随机变量的均值经适当标准化后依分布收敛于正态分布。这组定理是数理统计学和误差分析的理论基础，指出了大量随机变量之和近似服从正态分布的条件。

依分布收敛 —— 序列的分布趋向于某个极限

中心极限定理
 依分布收敛

在具有相同方差的所有可能的概率分布中，正态分布在实数上具有最大的不确定性。因此，我们可以认为正态分布是对模型加入的先验知识量最少的分布。

推广到多维空间 —— 多维正态分布

参数是一个正定对称矩阵 Σ

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-nHwy9qOL-1573372272341)(./assert/3.3.png)]

µ 仍然表示分布的均值，只不过现在是向量值

4. 指数分布和Laplace分布

指数分布：可实现在 x = 0 点处取得边界点 (sharp point) 分布的目的。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-FQ9OjHXc-1573372272342)(./assert/3.4.png)]
Laplace分布:允许在任意一点 µ 处设置概率质量的峰值

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-A3fE0GUZ-1573372272342)(./assert/3.5.png)]

5.Dirac 分布和经验分布

在一些情况下，为实现概率分布中的所有质量都集中在一个点上。通过Dirac delta 函数（Dirac delta function）δ(x) 定义概率密度函数来实现： p(x) = δ(x−µ).（广义函数）
除了 0 以外的所有点的值都为 0，但是积分为 1。

经验分布
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-oxYQqv2k-1573372272343)(./assert/3.6.png)]

经验分布将概率密度 1/m 赋给 m 个点 x(1),…,x(m) 中的每一个，这些点是给定的数据集或者采样的集合。

注意：只有在定义连续型随机变量的经验分布时，Dirac delta 函数才是必要的。对于离散型随机变量：经验分布可以被定义成一个 Multinoulli 分布，对于每一个可能的输入，其概率可以简单地设为在训练集上那个输入值的经验频率（empirical frequency）。

6. 分布的混合

组合一些简单的概率分布来定义新的概率分布

通用的组合方法是构造混合分布（mixture distribution）。混合分布由一些组件 (component) 分布构成。每次实验，样本是由哪个组件分布产生的取决于从一个 Multinoulli 分布中采样的结果
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-vKQ5NENH-1573372272344)(./assert/3.7.png)]
P© 是对各组件的一个 Multinoulli 分布

高斯混合模型（Gaussian Mixture Model），它的组件 p(x|c = i) 是高斯分布。每个组件都有各自的参数:均值 µ(i) 和协方差矩阵 Σ(i)。有一些混合可以有更多的限制。例如，协方差矩阵可以通过 Σ(i) = Σ,∀i 的形式在组件之间共享参数。和单个高斯分布一样，高斯混合模型有时会限制每个组件的协方差矩阵为对角的或者各向同性的 (标量乘以单位矩阵）。

高斯混合模型的参数指明了给每个组件 i 的先验概率（prior probability）αi = P(c = i)。‘‘先验’’ 表明了在观测到 x 之前传递给模型关于 c 的信念。作为对比，P(c|x) 是后验概率（posterior probability），它是在观测到 x 之后进行计算的

先验概率 VS 后验概率

贝叶斯公式：
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-aRK633xc-1573372272345)(./assert/3.8.png)]

3.9 常用函数的有用性质

1. logistic sigmoid 函数

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-mCUWSyLY-1573372272346)(./assert/3.9.png)]

它的范围是 (0,1)，处在 ϕ 的有效取值范围内,所以通常用来产生 Bernoulli 分布中的参数 ϕ。

sigmoid 函数在变量取绝对值非常大的正值或负值时会出现饱和（saturate）现象，函数会变得很平，并且对输入的微小改变会变得不敏感。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-e8PPfjGY-1573372272347)(./assert/3.10.png)]

2. softplus 函数

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-zhfxiV17-1573372272349)(./assert/3.11.png)]

它的范围是 (0,∞)，可以用来产生正态分布的 β 和 σ 参数。处理包含 sigmoid 函数的表达式时它也经常出现。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-zs5BTCFX-1573372272350)(./assert/3.11.png)]

一些有用的函数

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-fK0ZGzIw-1573372272351)(./assert/3.13.png)]

阅读文献自力更生

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
《深度学习（花书）》学习笔记——第三章

《深度学习（花书）》学习笔记——第三章3.1 - 为什么要使用概率机器学习通常必须处理不确定量。几乎所有活动都需要一些在不确定性存在的情况下进行推理的能力。不确定性有三种可能的来源：被建模系统内在的随机性；不完全观测：即使对于确定的系统，我们无法观测到所有驱动系统行为的变量时，该系统也会出现随机性；不完全建模：我们使用的模型可能必须舍弃某些观测信息，舍弃的信息会导致模型的预测出现...
复制链接

扫一扫