因子分析（三）- VB算法求解

XiaooooooBawang

已于 2022-05-18 16:47:34 修改

阅读量677

点赞数 2

文章标签：算法机器学习线性代数

于 2022-05-18 16:34:13 首次发布

本文链接：https://blog.csdn.net/qq_45493596/article/details/124845547

版权

系列文章

〇、前言

上一篇文章中，我们讲到EM算法的一些局限性，提出了Gibbs采样算法求解的方法，在这篇文章中，我们再提出另一种近似求解算法：变分贝叶斯算法（variational bayesian，VB算法）。

一、变分法

先简单地讲讲泛函：数可以看成是一种映射关系，即给定一个变量的值作为输入，就会返回该函数的值作为输出。而函数的导数用来描述输出值随输入值变化的变化快慢程度。相应的也可以把泛函看成是一种映射关系，即给定一个函数作为输入，返回泛函的数值（是一个数）作为输出。

对泛函不熟悉的同学可以看这篇blog，泛函还是比较容易理解的，这篇文章不重点讲泛函，重点讲变分贝叶斯如何应用到FA中。

泛函的形式有很多，通常表示为如下的积分形式：

[公式]

上式中 [公式] 称为变量函数，是它的导数。

变分法是数学领域中用来处理泛函的一种常用方法，和处理函数的普通微积分相对。这种方法最终寻求的是使得泛函取极值的极值函数。变分法的关键定理在于欧拉-拉格朗日方程，它对应于泛函的临界点，在寻找函数的极值时，通过对一个解附近的微小变化的分析给出一个近似值。

对于上式的泛函，它的欧拉-拉格朗日方程是：

[公式]

它是泛函 [公式] 取得极小值的必要条件的微分形式。

具体的证明可以看这篇blog，不在此赘述。

二、VB算法

假设给定某模型 [公式] 和一组观测数据，要求求出模型中不可观测变量的后验分布，但其实通常情况下这种后验分布函数的形式相当复杂（比如说em算法中推导出来的公式），要计算出该后验分布可能需要消耗大量的时间和资源。因此我们希望在某个较小的误差范围内，用数学形式相对简单的 [公式] 来近似，并且希望这两个随机分布之间的距离最小。的分布形式可以自由给出，只要它足够简单。但是却不可能每次都自主确定一个与接近且形式简单的，这样已不具备可操作性，所以需要找到一种通用形式帮助简化问题。

这种通用形式就是根据平均场理论，对模型参数做出后验条件独立（posterior independence）的假设。在统计物理学中，平均场理论可以被理解为系统中个体的局部相互作用能够产生宏观层面较为稳定的行为。

平均场理论的一个通俗例子就是：你们班在早读，在这个复杂系统中虽然每个人的声音有大有小，但这么多人的声音混在一起的时候（个体的局部相互作用），你在这个教室的每个地方听到的声音基本都是相同的（宏观层面较为稳定）。

根据平均场理论，分布 [公式] 可以因式分解为：

[公式]

上式中对不可观测变量的划分并不是一个变量对应一个划分，可以视情况而定。在某些情况下，将两三个变量划分在一起可以更加方便处理。

前面说到，我们希望 [公式] 和之间的距离最小，但怎么定义这个距离呢？在统计学中相对熵被用来描述两个随机分布之间的距离，这种描述随机分布距离的度量也常被称为KL散度。两个概率密度函数和之间的相对熵定义为（为离散变量的情况，若 [公式] 为连续变量则将求和号换成积分号）：

[公式]

KL散度有如下性质：

（1） [公式] （KL散度不是一个对称量）。

（2） [公式] ，当且仅当时等号成立。

（3）不满足三角不等式。

由以上对于KL散度的定义可以写出近似分布 [公式] 与真实后验分布的KL散度为：

[公式]

即：

[公式]

其中，泛函 [公式] ：

[公式]

我们可以发现 [公式] ，所以：

[公式]

那么 [公式] 可以看成是的下界，也就是它的边缘似然函数，也称为证据下界（Evidence Lower Bound，ELOB），通过最大化就能逼近。

或者从另一个方向来思考，对于给定的数据 [公式] , 是固定的，要想使KL散度最小（与距离最小），只要让取最大值就可以了：

进一步可以将 [公式] 写成如下形式：

[公式]

由平均场理论 [公式] ,对于上式左边项：

[公式]

这里需要说明一下，对于 [公式] ，我们定义，所以。令，而就是的归一化常数。此处的变换需要注意的是记号，而不是代表对向量的微分。

由平均场理论再考虑右边项：

[公式]

根据信息熵的定义： [公式] ，右边项能改写成信息熵的形式，那么 :

[公式]

对于泛函 [公式] ，以及它的边界条件，要求它的极值，我们可以利用泛函求极值的必要条件（泛函的一级变分等于零）和拉格朗日乘数法：

[公式]

对于上式直接求解将得到Gibbs分布，而且略显复杂。那么我们还能注意到，泛函 [公式] 中的，要想让最大，只需让即可。

重点：这里必须要讲清楚，网上没有blog解释清楚为什么。很多人会有疑惑（包括我自己）为什么让就OK了，不用考虑信息熵吗？原因在于 KL散度和信息熵的变量是两个独立开的不同的划分，我们在迭代处理样本的时候只处理 划分（KL散度联系着两个函数，比信息熵更有处理意义），信息熵那部分是划分，相对于划分来说就是个常数，所以只看KL散度。