KL散度(KL距离)
KL(Kullback-Leibler)散度,也称为KL距离或相对熵,是用于度量两个概率分布之间差异的一种指标。在变分贝叶斯方法中,KL散度经常被用来度量近似后验分布与真实后验分布之间的差异。
对于两个概率分布 P 和 Q,其KL距离定义为:
或者在连续分布的情况下:
KL距离的性质包括:
-
非负性: 对于任意的 P 和 Q,KL距离始终非负:DKL(P∣∣Q)≥0。等号成立当且仅当 P 和 Q 是相同的分布。
-
非对称性: KL距离是非对称的,即一般情况下 DKL(P∣∣Q)≠DKL(Q∣∣P)。
在变分贝叶斯中,KL距离经常用于测量变分分布(近似后验分布)和真实后验分布之间的差异。具体来说,在变分推断中,我们试图找到一个与真实后验分布最接近的分布,使得KL距离最小。这可以通过最小化KL散度来找到最优的变分分布,从而近似真实的后验分布。在实际的变分贝叶斯推断中,通常是通过最大化变分下界来近似最小化KL散度,因为直接最小化KL散度可能不太容易。这被称为变分推断的最大化证据下界(Variational Inference via Maximum Lower Bound, VI-MaxELBO)方法。
变分自由能
变分自由能(Variational Free Energy)是在变分推断(Variational Inference)中使用的一个概念,用于量化近似分布与真实后验分布之间的差异。它是变分推断中的一个目标函数,通过最小化变分自由能,可以找到一个近似分布,使其尽可能接近真实的后验分布。
变分自由能的表达式通常如下:
其中,Q 是我们希望找到的近似分布,P 是真实的后验分布,X 是观测数据,Z 是未知的潜在变量。解释上述表达式的各项:
-
第一项 DKL(Q∣∣P): 衡量了近似分布 Q 与真实后验分布 P 之间的差异。KL 散度是非负的,为零时表示两个分布相等。因此,最小化这一项是为了使近似分布尽可能接近真实后验。
-
第二项 EQ[logP(X,Z)−logQ(Z)]: 这一项包含了对数似然项和熵项。对数似然项 logP(X,Z) 表示在给定参数 Z 的情况下观测数据的似然。熵项 logQ(Z) 表示近似分布 Q 的熵,即其不确定性。这一项的目标是使得近似分布对观测数据有较好的似然匹配,同时保持分布的多样性,即不确定性。
通过最小化变分自由能,我们在近似分布的选择中取得了折中,同时考虑了与真实后验的接近度和模型对观测数据的拟合。这一过程通常通过迭代的方式进行,例如坐标下降、梯度下降等方法,不断调整近似分布的参数以使得变分自由能达到最小值。
最大化证据下界
变分自由能(Variational Free Energy)与最大化证据下界(Evidence Lower Bound, ELBO)之间有密切的关系。事实上,变分自由能就是 ELBO 的负值。理解这一关系有助于解释变分推断中的目标和优化过程。在变分推断中,我们考虑一个真实后验分布P(Z∣X) 和一个近似分布Q(Z)。为了近似真实后验分布,我们希望最大化证据下界,该下界定义为:
其中:
- Q(Z) 是我们希望找到的近似后验分布。
- P(X,Z) 是观测数据 X 和潜在变量 Z 的联合概率分布。
ELBO由两项组成:
-
对数似然项EQ[logP(X,Z)]: 衡量了近似分布 Q(Z) 对观测数据的似然匹配程度。这一项希望近似分布能够较好地拟合观测数据。
-
熵项 −EQ[logQ(Z)]: 衡量了近似分布 Q(Z) 的不确定性,即熵的期望。这一项希望近似分布越不确定越好,以便能够灵活地适应潜在变量的分布。
将 ELBO 表示成期望和的形式,其中包含对数似然项和熵项。通过最大化 ELBO,我们可以在保持对观测数据拟合良好的同时,尽量使近似分布Q(Z) 接近真实后验分布 P(Z∣X)。然而,为了方便优化问题,我们通常会考虑变分自由能,即 ELBO 的负值:
变分自由能与最大化证据下界是等价的,因为最大化 ELBO 的过程等价于最小化其负值,即最小化变分自由能,且通常通过迭代的方式进行。这是因为 ELBO 本身是一个负值,所以在实际优化过程中,我们通常考虑的是最小化变分自由能。