花书笔记:第03章 概率与信息论
3.1 随机变量
-
随机变量是可以随机取不同值的变量,分为离散随机变量和连续随机变量。
离散型: 拥有有限或无限多的可数状态。如:整数,被命名的状态值。
连续性: 实数值。
3.2 概率分布
- 定义: 用来描述随机变量取到某个值(状态)的可能性的大小。
- 概率质量函数(PMF):
- 离散型变量的概率分布。
- 用 P ( x ) ∈ [ 0 , 1 ] P(x)∈[0,1] P(x)∈[0,1]表示 x= x x x 的概率。
- 用 P ( x , y ) P(x,y) P(x,y) 表示 x = x x x, y = y y y 的联合概率。
- 概率密度函数(PDF):
- 连续型变量的概率分布。
- p ( x ) ≥ 0 p(x) \geq 0 p(x)≥0 ,可以大于1。
- ∫ [ a , b ] p ( x ) d x \int_{[a,b]p(x)}dx ∫[a,b]p(x)dx 表示 x x x 落在区间 [ a , b ] [a,b] [a,b] 的概率。
3.3 边缘概率
-
当有一组 (x,y) 联合概率分布后,如果想知道 x = x x x 的概率分布,这就是边缘概率分布。
-
离散型求法:
∀ x ∈ X , P ( X = x ) = ∑ y P ( X = x , Y = y ) \forall x\in X,P(X=x)=\sum_yP(X=x,Y=y) ∀x∈X,P(X=x)=y∑P(X=x,Y=y) -
连续型求法:
p ( x ) = ∫ p ( x , y ) d y p(x) = \int p(x,y)dy p(x)=∫p(x,y)dy
3.4 条件概率
-
一个事件 X 在其他事件 Y 发生的情况下的概率。
P ( Y = y ∣ X = x ) = P ( Y = y , X = x ) P ( X = x ) P(Y=y|X=x)=\frac{P(Y=y,X=x)}{P(X=x)} P(Y=y∣X=x)=P(X=x)P(Y=y,X=x) -
链式法则
P ( x ( 1 ) , ⋅ ⋅ ⋅ , x ( n ) ) = P ( x ( 1 ) ) ∏ i = 2 n P ( x i ∣ x ( 1 ) , ⋅ ⋅ ⋅ , x ( i − 1 ) ) P(x^{(1)},···,x^{(n)})=P(x^{(1)})\prod_{i=2}^nP(x^i|x^{(1)},···,x^{(i-1)}) P(x(1),⋅⋅⋅,x(n))=P(x(1))i=2∏nP(xi∣x(1),⋅⋅⋅,x(i−1))
3.5 独立性和条件独立
- 相互独立(x⊥y): p ( x , y ) = p ( x ) P ( y ) p(x,y)=p(x)P(y) p(x,y)=p(x)P(y)
- 条件独立(x⊥y | z): P ( x , y ∣ z ) = P ( x ∣ z ) P ( y ∣ z ) P(x,y|z)=P(x|z)P(y|z) P(x,y∣z)=P(x∣z)P(y∣z)
3.6 期望、方差、协方差
- 期望: 用于求随机变量分布的平均值。
- 方差: 用于衡量根据
x
x
x 的概率分布进行
采样
时, f ( x ) f(x) f(x) 会呈现多大差异。 - 协方差: 衡量变量的相关性。若两个变量独立,则 Cov 比为 0 ;若 Cov 不为 0 ,则二者一定相关。
- 协方差矩阵: 是一个 n × n n×n n×n 的矩阵;满足 C o v ( x ) i , j = C o v ( x i , y j ) Cov(x)_{i,j}=Cov(x_i,y_j) Cov(x)i,j=Cov(xi,yj) ;矩阵对角线是方差, C o v ( x i , x i ) = V a r ( x i ) Cov(x_i,x_i)=Var(x_i) Cov(xi,xi)=Var(xi)。
3.7 常用概率分布
-
Bernoulli 分布(0-1分布)
用 ϕ \phi ϕ 衡量变量 x = 0 或 1 的概率,即
P ( x = 1 ) = ϕ P(x=1)=\phi P(x=1)=ϕ
P ( x = 0 ) = 1 − ϕ P(x=0)=1-\phi P(x=0)=1−ϕ -
Multinoulli 分布
是指在具有 k 个不同状态的单个离散型随机变量的分布,向量 p ∈ [ 0 , 1 ] k − 1 \pmb{p}\in[0,1]^{k-1} ppp∈[0,1]k−1 是在 k 个不同状态下的概率向量。
① 分量 p i p_i pi 表示第 i i i 个状态的概率。
② 向量和为1, ∑ i = 0 k − 1 p i = 1 \sum_{i=0}^{k-1}p_i=1 ∑i=0k−1pi=1
③ Multinoulli 分布常用来表示分类任务中对象分类的分布。
-
高斯分布(正态分布)
在很多应用中都采用 正态分布,原因是
① 很多真实情况的分布比较接近正态分布
② 相同方差的所有概率分布,正态分布在实数上的不确定性更大,更符合真实分布的特点,可认为是人为加入最少先验知识量 的分布。
-
指数分布
在深度学习中经常需要在 x = 0 x=0 x=0 处取得边界点的分布。指数分布可以满足该要求。
-
Laplace 分布
该分布允许在任意 u u u 处设置概率质量的峰值。
-
Dirac 分布
Dirac 分布所有质量都集中在一个点上,除了 0 以外,所有点的值均为 0 ,但积分为 1。
-
经验分布
① 连续型经验分布常将Dirac函数作为组成部分。
② 离散型经验分布对于每个 x x x 的概率可以将其假设为训练集上每个 x x x 的经验频率。
-
分布的混合
①
混合分布
P ( x ) = ∑ i P ( c = i ) P ( x ∣ c = i ) P(x)=\sum_iP(c=i)P(x|c=i) P(x)=i∑P(c=i)P(x∣c=i)
②高斯混合模型
高斯混合模型是概率密度的万能近似器,任何平滑的概率密度都可以用足够多组件的高斯混合模型以任意精度逼近。
3.8 常用函数的有用性质
-
logistic sigmoid 函数
σ ( x ) = 1 1 + e x p ( − x ) \sigma(x)=\frac{1}{1+exp(-x)} σ(x)=1+exp(−x)1
常用来产生 Bernoulli 分布中的参数 ϕ \phi ϕ 。 -
softplus 函数
ζ ( x ) = l o g ( 1 + e x p ( x ) ) \zeta(x)=log(1+exp(x)) ζ(x)=log(1+exp(x))
常用来产生正态分布的 β \beta β 和 σ \sigma σ 参数。softplus函数 是正步函数 x + = m a x ( o , x ) \pmb{x^+=max(o,x)} x+=max(o,x)x+=max(o,x)x+=max(o,x) 的平滑版本。
3.9 贝叶斯规则
P ( x ∣ y ) = P ( x ) P ( y ∣ x ) P ( y ) P(x|y)=\frac{P(x)P(y|x)}{P(y)} P(x∣y)=P(y)P(x)P(y∣x)
P ( y ) = ∑ x P ( y ∣ x ) P ( x ) P(y)=\sum_xP(y|x)P(x) P(y)=x∑P(y∣x)P(x)
3.10 信息论
-
信息论量化信息的性质
① 非常可能发生的事件信息量要比较少,极端概况下,确保能够发生的事件应该没有信息量。
② 较不可能发生的事件具有更高的信息量。
③ 独立事件应具有增量信息,如投掷两次硬币正面朝上的信息量,应该是投掷一次硬币正面朝上的两倍。
-
KL散度 可以用来衡量同一个随机变量 x 的两个单独的概率分布 P(x) 和 Q(x) 的差异。
3.11 结构化概率模型
机器学习算法中经常会涉及在非常多的随机变量上的概率分布,这些随机变量有的会直接相互作用。一般会将概率分布分解成许多银因子的乘积形式,常使用结构化概率模型或图模型描述这一分解。分为有向模型和无向模型。
-
有向模型表示
分 解 结 果 : p ( a , b , c , d ) = p ( a ) p ( b ∣ a ) p ( c ∣ a , b ) p ( d ∣ b ) p ( e ∣ c ) 分解结果:p(a,b,c,d)=p(a)p(b|a)p(c|a,b)p(d|b)p(e|c) 分解结果:p(a,b,c,d)=p(a)p(b∣a)p(c∣a,b)p(d∣b)p(e∣c)
-
无向模型表示
分 解 结 果 : p ( a , b , c , d ) = 1 Z ϕ ( 1 ) ( a , b , c ) ϕ ( 2 ) ( b , d ) ϕ ( 3 ) ( c , e ) 分解结果:p(a,b,c,d)=\frac{1}{Z}\phi^{(1)}(a,b,c)\phi^{(2)}(b,d)\phi^{(3)}(c,e) 分解结果:p(a,b,c,d)=Z1ϕ(1)(a,b,c)ϕ(2)(b,d)ϕ(3)(c,e)