《深度学习》同步学习笔记 第三章——概率与信息论
3.1 为什么要使用概率
1. 被建模系统内在的随机性
2. 不完全观测
3. 不完全建模
频率派概率:概率直接与事件发生的频率相联系
贝叶斯概率:概率涉及到确定性水平
3.2 随机变量
3.3 概率分布
用于描述随机变量或一簇随机变量在每一
个可能取到的状态的可能性大小。
3.3.1 离散型变量和概率质量函数
离散型变量的概率分布可以用概率质量函数(probabilit mass function, PMF)描述。
P为随机变量x的PMF的条件:
3.3.2 连续型变量和概率密度函数
连续型随机变量的分布可以用概率密度函数(probability denstity function, PDF)表示
P为概率密度函数的条件:
概率密度函数
p
(
x
)
p(x)
p(x)并没有直接对特定的状态给出概率,而是给出落在面积为
δ
x
δx
δx 的无限小的区域内的概率为
p
(
x
)
δ
x
p(x)δx
p(x)δx。
3.4 边缘概率
知道了一组变量的联合概率分布,想要了解其中一个子集的概率分布
对于离散型:
对于连续型:
3.5 条件概率
不要和计算当采用某动作后悔发生什么相混淆(这是因果模型的干预查询)
3.6 条件概率的链式法则
3.7 独立性和条件独立性
相互独立:
条件独立:
3.8 期望、方差、和协方差
离散型:
连续型:
方差:(平方根为标准差)
协方差:给出了两个变量线性相关性的强度以及这些变量的尺度
绝对值很大:变化很大,离均值较远
协方差为正:两个变量倾向于较大
为负数:一个大一个小
协方差为0说明没有线性关系,不一定互相独立(独立性要求更强)
协方差矩阵:
对角元为方差
3.9 常用概率分布
3.9.1 Bernoulli 分布
单个二值随机变量的分布
3.9.2 Multinoulli(范畴) 分布
用向量
P
∈
[
0
,
1
]
k
−
1
\mathit{P}\in \left [ 0,1 \right ]^{k-1}
P∈[0,1]k−1参数化,每一个向量
P
i
P_i
Pi表示第
i
i
i个状态的概率
最后的k状态由
1
−
1
T
P
1-1^{T}\mathit{P}
1−1TP给出
必须限制
1
T
P
≤
1
1^{T}\mathit{P} \leq 1
1TP≤1
3.9.3 高斯分布(正态分布)
概率密度函数图象:
µ
=
0
,
σ
=
1
µ = 0, σ = 1
µ=0,σ=1(标准正态分布)
µ
µ
µ给出中心峰值坐标
σ
2
σ^{2}
σ2为方差
需要经常对不同参数下的概率密度函数求值时
用参数
β
>
0
\beta >0
β>0 来控制分布的精度
正态分布是默认的比较好的选择:
- 建模的很多分布的真实情况比较接近正态分布
- 是对模型加入的先验知识量最少的分布
3.9.4 指数分布和 Laplace 分布
指数分布:在x=0处取得边界点
Laplace分布: 在
μ
\mu
μ 处设置峰值
3.9.5 Dirac 分布和经验分布
概率分布中的所有质量集中在一个点上
除了0以外所有点的值为0,但积分为1
经常在经验分布出现:
3.9.6 分布的混合
混合分布:各个组件由Multinoulli分布采样
高斯混合模型:组件是高斯分布,指明了每个组件的先验概率,可以逼近任何平滑的概率密度
3.10 常用函数的有用性质
回归函数
softplus 函数
3.11 贝叶斯规则
3.12 连续型变量的技术细节
1.注意 零测度
2.
3.13 信息论
量化单个信息输出
自信息:
I
(
x
)
=
−
l
o
g
P
(
x
)
I(x)= - logP(x)
I(x)=−logP(x)e为底数 单位为(nats)一奈特是以
1
e
\frac{1}{e}
e1 的概率观测到一个事件时获得的信息量。
2为底数单位为比特或香农
对整个概率分布中的不确定性总量进行量化
香农熵:
对同一随机变量两个概率分布
P
(
x
)
P(x)
P(x)和
Q
(
x
)
Q(x)
Q(x)的差异的衡量:
KL散度(非负,当且仅当P和Q在离散情况下相同,或连续情况下几乎相同时为0)
交叉熵
3.14 结构化概率模型
将概率分布分解成多因子乘机形式以减少参数。
用图来表示这种分解即为结构化概率模型
有向图:
无向图:分解表示成一组函数
随机变量的联合概率与所有这些因子的乘积成比例
需要除以一个归一化常数 Z 来得到归一化的概率分布
概率分布为