深度学习(花书)–概率与信息论
基本概念
-
随机变量:可以随机地取不同值的变量。
- 离散:
- 拥有有限或者可数的无限状态
- 连续:伴随着实数值
- 离散:
-
概率分布:用来描述随机变量或一簇变量在每一个可能取值的状态的可能性的大小。
-
概率质量函数(probability mass function, PMF)用来描述离散变量的概率分布
-
概率质量函数用于多种随机变量,被称为联合概率分布(joint probability distribution)
-
概率密度函数(probability density function, PDF) 用来描述连续随机变量
-
边缘概率:一组变量联合概率分布的子集
对于联合概率分布 P ( x , y ) P(x,y) P(x,y),可以采用求和法则计算 P ( X ) P(X) P(X):
对于离散型随机变量:
∀ x ∈ X , P ( x = X ) = ∑ y P ( X = x , Y = y ) \forall x \in X, P(x=X)=\sum_yP(X=x,Y=y) ∀x∈X,P(x=X)=∑yP(X=x,Y=y)
对于连续性随机变量:
p ( x ) = ∫ p ( x , y ) d y p(x)=\int p(x,y)dy p(x)=∫p(x,y)dy -
条件概率
-
在给定其他事件发生时,某事件发生的概率。对于x,y, 对X=x Y=y 发生的条件概率记为 P ( Y = y ∣ X = x ) P(Y=y|X=x) P(Y=y∣X=x),通过如下公式计算:
P ( Y = y ∣ X = x ) = P ( X = x , Y = y ) P ( X = x ) P(Y=y|X=x)=\frac{P(X=x,Y=y)}{P(X=x)} P(Y=y∣X=x)=P(X=x)P(X=x,Y=y)
计算一个行为后果的称为干预查询(intervention query),属于因果模型(causal model) -
条件概率的链式法则
-
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-YfXTpIzg-1605351828035)(en-resource://database/2479:1)]
-
独立性和条件独立性
-
对于两个随机变量x、y,如果他们的概率分布可以表示成两个因子的乘积形式,而且一个因子只包含x另一个只包含y,就称这两个随机变量相互独立(independent)
/ f o r a l l x ∈ X , y ∈ Y , p ( X = x , Y = y ) = p ( X = x ) p ( Y = y ) /forall x \in X, y \in Y, p(X=x,Y=y)=p(X=x)p(Y=y) /forallx∈X,y∈Y,p(X=x,Y=y)=p(X=x)p(Y=y)
两个随机变量x、y在给定随即变量z是条件独立(conditionally indepen) -
期望、方差和协方差
-
概念:函数发f(x)关于某分布P(x)的期望(expectation)或者期望值(expected value)是指,当x由P产生时,f作用于x的平均值。
期望是线性的,例如:
E x [ α f ( x ) + β g ( x ) ] = α E x [ f ( x ) ] + β E x [ g ( x ) ] E_x [\alpha f(x) + \beta g(x)]=\alpha E_x[f(x)]+\beta E_x[g(x)] Ex[αf(x)+βg(x)]=αEx[f(x)]+βEx[g(x)]
方差:衡量的x依照其概率分布进行采样时,随机变量x的函数值会呈现出多大的差异:
V a r ( f ( x ) ) = E [ ( f ( x ) − E [ f ( x ) ] ) 2 ] Var(f(x))=E[{(f(x)-E[f(x)])}^2] Var(f(x))=E[(f(x)−E[f(x)])2]
当方差很小时,f(x)的值的形成簇比较接近他们的期望值,方差的平方根被称为标准差
协方差:在某种意义上给出了两个变量线性相关性的强度以及这些变量的尺度
C o v ( f ( x ) , g ( y ) ) = E [ ( f ( x ) − E [ f ( x ) ] ) ( g ( y ) − E [ g ( y ) ] ) ] Cov(f(x),g(y))=E[(f(x)-E[f(x)])(g(y)-E[g(y)])] Cov(f(x),g(y))=E[(f(x)−E[f(x)])(g(y)−E[g(y)])]
协方差的绝对值如果很大,则意味着变量值变化很大并且他们同时距离各自的均值很远。相关系数将每个变量的贡献归一化,为了只衡量变量的相关性,而不受变量大小的分别影响。
协方差和相关性是有联系的,相互独立的变量协方差为零,如果两个变量的协方差不为零,那么他们一定是相关的。
随机向量 x ∈ R n x \in R^n x∈Rn的协方差矩阵(covariance matrix)是一个 n × n n \times n n×n的矩阵,并且满足
C o v ( x ) i , j = C o b ( x i , x j ) {Cov(x)}_{i,j} = Cob(x_i , x_j) Cov(x)i,j=Cob(xi,xj)
协方差矩阵的对角元素是方差
-
-
常见概率分布
-
Bernoulli分布:单个二值随机变量的分布,它由单个参数 $
\emptyset \in [0,1] 控 制 , 控制, 控制,
\emptyset$给出了随机变量等于1的概率 -
Multinoulli分布(分类分布):是指在具有k个不同状态的单个离散型随机变量的分布,k是有限的。
-
高斯分布(normal distribution)称为高斯分布:
N ( x ; μ , σ 2 ) = 1 2 π σ 2 e x p ( − 1 2 σ 2 ( x − μ ) 2 ) N(x;\mu, {\sigma}^2)=\sqrt{{\frac{1}{2\pi{\sigma}^2}}}exp(-\frac{1}{2{\sigma}^2}{(x-\mu)}^2) N(x;μ,σ2)=2πσ21exp(−2σ21(x−μ)2)
正态分布被两个参数控制, μ ∈ R \mu \in R μ∈R和 σ ∈ ( 0 , ∞ ) \sigma \in (0,\infty) σ∈(0,∞),前一个参数是分布均值,给出中心峰值坐标,第二个参数表示分布的标准误差,其平方为分布方差。
当不了解数据集分布时,优先选择正态分布作为先验知识。
选择正态分布分原因:- 1.很多独立随机变量的和近似服从正态分布
- 2.在具有想用方差的所有可能的概率分布中,正态分布在实数上具有最大的不期而定性。**即:**正态分布是对模型加入先验知识最少的分布。
-
指数分布和Laplace分布
指数分布:在 x=0 点处取得边界点的分布
p ( x ; λ ) = λ 1 x ≥ 0 e x p ( − λ x ) p(x;\lambda)=\lambda1_{x \geq0}exp(-\lambda x) p(x;λ)=λ1x≥0exp(−λx)
指数分布中 x取负值的概率为零
Laplace分布将这种边界点扩展,允许在任意一点 μ \mu μ设置概率分布的峰值
L a p l a c e ( x ; μ , γ ) = 1 2 γ e x p ( − ∣ x − μ ∣ μ ) Laplace(x;\mu,\gamma)=\frac{1}{2\gamma}exp(-\frac{ \lvert x- \mu \lvert}{\mu}) Laplace(x;μ,γ)=2γ1exp(−μ∣x−μ∣) -
分布的混和
通过组合一些简单的概率分布来定义新的概率分布的方法,称为构造混合分布(mixture distribution),混和分布由一些组件(component)分布构成。每次实验,样本是由那个组件分布产生的取决于从一个Multinoulli分布中采样的过程:
P ( x ) = ∑ i P ( c = i ) P ( x ∣ c = i ) P(x)=\sum_i P(c=i )P(x\mid c=i) P(x)=∑iP(c=i)P(x∣c=i)
混合模型是组合简单概率分布来生成更丰富分布的一种简单策略。- eg:高斯混合模型(gaussian mixtrue model),它的组件
p
(
x
∣
c
=
i
)
p(x \mid c=i)
p(x∣c=i)是告诉分布,每个组件都有自己的参数,即各自的均值和协方差矩阵。
高斯混和模型的参数指明了给每个组件 i的先验概率(prior probability) α i = P ( c = i ) \alpha_i =P(c=i) αi=P(c=i),表明了观测到x之前传递给模型关于c的信念。 P ( c ∣ x ) P(c \mid x) P(c∣x)是后验概率,在观察到x之后进行计算,其中c为潜变量。
- eg:高斯混合模型(gaussian mixtrue model),它的组件
p
(
x
∣
c
=
i
)
p(x \mid c=i)
p(x∣c=i)是告诉分布,每个组件都有自己的参数,即各自的均值和协方差矩阵。
-
常用函数
-
logistic sigmoid函数:
α ( x ) = 1 1 + e x p ( − x ) \alpha (x) = \frac{1}{1+exp(-x)} α(x)=1+exp(−x)1
logistic sigmoid函数通常用来产生Bernoulli分布中的参数 ϕ \phi ϕ通常由sigmoid函数产生。sigmoid函数在变量取绝对值非常大的正值或负值时会出现饱和(saturate)现象,对微笑改变得不敏感
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-LM6tnHua-1605351828039)(en-resource://database/2493:1)]
另一个函数时softplus函数(softplus function)
ζ ( x ) = l o g ( 1 + e x p ( x ) ) \zeta(x)=log(1+exp(x)) ζ(x)=log(1+exp(x))
softplus函数可以用来产生正态分布 β \beta β和 α \alpha α 参数,因其范围是 ( 0 , ∞ ) (0,\infty) (0,∞), 另一个函数平滑形式:
x + = m a x ( 0 , x ) x^+=max(0,x) x+=max(0,x) -
贝叶斯规则
- 在已知
P
(
y
∣
x
)
P(y|x)
P(y∣x)时计算
P
(
x
∣
y
)
P(x|y)
P(x∣y),同时知道P(x),可以使用贝叶斯规则(Bayes rule)来实现这一目的:
P ( x ∣ y ) = P ( x ) P ( x ∣ y ) P ( y ) P(x|y)=\frac{P(x)P(x|y)}{P(y)} P(x∣y)=P(y)P(x)P(x∣y)
P(y)使用 P ( y ) = ∑ x P ( y ∣ x ) P ( x ) P(y)=\sum_xP(y|x)P(x) P(y)=∑xP(y∣x)P(x)来计算
- 在已知
P
(
y
∣
x
)
P(y|x)
P(y∣x)时计算
P
(
x
∣
y
)
P(x|y)
P(x∣y),同时知道P(x),可以使用贝叶斯规则(Bayes rule)来实现这一目的:
-
连续性变量的技术细节
- 假设两个变量x、y满足 y=g(x),其中个时可逆的连续可微函数,则存在如下等式,描述为 x落在无穷下的体积为 δ x \delta x δx的区域内的概率为 p ( x ) δ x p(x)\delta x p(x)δx,因为g可能会扩展或者压缩空间,在x空间内包围x的无穷小体积可能与y空间中有不同的体积,若体积相同则:
- ∣ p y ( g ( x ) ) d y ∣ \lvert p_y (g(x))dy \lvert ∣py(g(x))dy∣= ∣ p x ( x ) d x ∣ \lvert p_x(x)dx\lvert ∣px(x)dx∣
- 求解上式:
p x ( x ) = p y ( g ( x ) ) ∣ ∂ g ( x ) ∂ x p_x (x)=p_y (g(x))\lvert\frac{{\partial}g(x)}{\partial x} px(x)=py(g(x))∣∂x∂g(x)
在高维空间中,微分运算可以扩展为Jacobi矩阵的行列式:
p x ( x ) = p y ( g ( x ) ) ∣ d e t ( ∂ g ( x ) ∂ x ) p_x (x)=p_y (g(x))\lvert det(\frac{{\partial}g(x)}{\partial x}) px(x)=py(g(x))∣det(∂x∂g(x))
-
信息论
- 主要研究一个信号能够通过提供信息的多少来进行量化
- 一个事件的自信息(self-information)为:
I ( x ) = − l o g P ( x ) I(x)=-logP(x) I(x)=−logP(x)
单位为 奈特(nats),以e为底,表示观测到一个事件时获得的信息量。log以2为底的时候,单位时比特或者香农。
香农熵:对整个概率分布中的不确定性总量进行量化:
H ( x ) = E x p [ I ( x ) ] = − E x p [ l o g P ( x ) ] H(x)=E_{x~p}[I(x)]=-E_{x~p}[logP(x)] H(x)=Ex p[I(x)]=−Ex p[logP(x)]
一个分布的香农熵是指遵循这个分布的事件所产生的期望信息总量。接近均匀分布的概率分布具有较高的熵,接近确定性的分布具有较低的熵,当x是连续的,香农熵被称为微分熵。
若:对于同一随机变量x有两个单独的概率分布P(x)和Q(x),可以使用KL散度来衡量两个分布的差异:
D K L ( P ∥ Q ) = E x p [ l o g P ( x ) − l o g Q ( x ) ] D_{KL}(P \lVert Q)=E_{x~p}[logP(x)-logQ(x)] DKL(P∥Q)=Ex p[logP(x)−logQ(x)]
性质:KL三度是非负的,KL散度为0时,当且仅当P和Q的离散型变量的情况下是相同分布,或者在连续变量的情况下几乎处处相同。
-
结构化概率分布
- 对于多个随机变量上的概率分布,可以将其分割成许多因子的乘积形式。可以把全部三个变量的概率分布重新表示为两个变量的概率分布的连乘形式
p ( a , b , c ) = p ( a ) p ( b ∣ a ) p ( c ∣ b ) p(a,b,c)=p(a)p(b \lvert a)p(c \lvert b) p(a,b,c)=p(a)p(b∣a)p(c∣b)
使用图论中的知识来进行银子分布的分解,将每一个因子分布分解,使其具有更少的变量,称之为结构化概率模型或者图模型
有两种主要的结构话概率模型:
有向和无向
途中的每个节点对应着一个随机变量,谅解两个随机变量的边意味着概率分布可以表示成两个随机变量之间的直接作用。
**有向:**有向模型对于分布中的每一个随机变量xi都包含着一个影响因子,这个组成xi条件概率的影响因子被称为xi的双亲,记为 P a g ( x i ) P_{ag(x_i)} Pag(xi)
p ( x ) = ∏ i p ( x i ∣ P a g ( x i ) ) p(x)=\prod_i p(x_i \lvert P_{ag(x_i)}) p(x)=∏ip(xi∣Pag(xi))
无向:带有无向边的图,将因子分解表示成一堆函数,这些函数不是任何类型的概率分布。G中全部相连 的节点构成的集合称为 团。无向模型中每个团 C i C^i Ci都伴随着一个因子 ϕ i ( C i ) \phi^i(C^i) ϕi(Ci),这些因子是函数而不是概率分布,每个因子的输出必须是非负的。
随机变量的联合概率和所有这些因子的乘积成比例,即因子值越大可能性越大,归一化常数Z被定义为 ϕ \phi ϕ函数乘积的所有状态的求和或者积分,概率分布为:
p ( x ) = 1 Z ∏ i ϕ i ( C i ) p(x)=\frac{1}{Z}\prod_i \phi^i (C^i) p(x)=Z1∏iϕi(Ci)
- 对于多个随机变量上的概率分布,可以将其分割成许多因子的乘积形式。可以把全部三个变量的概率分布重新表示为两个变量的概率分布的连乘形式