指数分布族(Exponential Family)相关公式推导及在变分推断中的应用

最新推荐文章于 2024-06-28 15:28:31 发布

置顶 HFUT_qianyang

最新推荐文章于 2024-06-28 15:28:31 发布

阅读量2.1w

点赞数 22

分类专栏：数据挖掘算法贝叶斯相关模型及程序基础机器学习算法理论与编程梳理文章标签：贝叶斯推理变分推断

本文链接：https://blog.csdn.net/qy20115549/article/details/87247363

版权

数据挖掘算法同时被 3 个专栏收录

68 篇文章

订阅专栏

贝叶斯相关模型及程序

43 篇文章

订阅专栏

基础机器学习算法理论与编程梳理

11 篇文章

订阅专栏

本文深入探讨了指数分布族的概念，包括其在机器学习中的应用，以及如何将其应用于典型分布，如Bernoulli、Poisson、Gaussian等的转化。此外，还详细介绍了变分推断在LDA模型中的应用。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

本文作者：合肥工业大学管理学院钱洋 email：1563178220@qq.com 内容可能有不到之处，欢迎交流。
未经本人允许禁止转载。

指数分布族的概念

指数分布族是一系列分布的统称，包含连续和离散的相关分布。例如，正太分布(Gaussian)、泊松分布（Poisson）、二项分布(Bernoulli)、指数分布(exponential)、Gamma分布、多项式分布(multivariate)等。
指数分布族中的分布以及指数分布族的性质，经常用于机器学习(machine learning)模型的参数假设以及参数推理中。较为典型的模型是生成模型，例如主题模型(Topic Models)中经常使用到的共轭分布(multivariate和Dirichlet分布、Bernoulli和Beta分布、Poisson和gamma分布等)。指数分布族中的共轭经常用于参数推理、另外其统计特性经常用于变分推理。例如，有兴趣的可以详细阅读下面几篇文章：

Blei D M, Ng A Y, Jordan M I. Latent dirichlet allocation[J]. Journal of machine Learning research, 2003, 3(Jan): 993-1022.
Teh Y W, Newman D, Welling M. A collapsed variational Bayesian inference algorithm for latent Dirichlet allocation[C]//Advances in neural information processing systems. 2007: 1353-1360.
Blei D M, Kucukelbir A, McAuliffe J D. Variational inference: A review for statisticians[J]. Journal of the American Statistical Association, 2017, 112(518): 859-877. 【变分推断的综述性文章–案例代码为：https://blog.csdn.net/qy20115549/article/details/86694325】
Su J. Variational Inference: A Unified Framework of Generative Models and Some Revelations[J]. arXiv preprint arXiv:1807.05936, 2018. 【变分自编码器VAE、生成对抗网络GAN】
Wainwright M J, Jordan M I. Graphical models, exponential families, and variational inference[J]. Foundations and Trends® in Machine Learning, 2008, 1(1–2): 1-305. 【一本书】

指数分布族中的分布于都写成下面的形式：
在这里插入图片描述
其中：

$\eta$ 为自然参数(natural parameter)，可以是向量形式
$T (x)$ 为充分统计量(sufficient statistic)
$A(\eta)$ 为累计函数(cumulant function)，作用是确保概率和为1
$h (x)$ 为underlying measure

典型分布转化

Bernoulli分布

以下是Bernoulli分布的转化：
在这里插入图片描述
对比上面的形式，可以得到：

Poisson分布

泊松分布的标准形式为：
在这里插入图片描述
写成指数形式为：

因此泊松分布也属于指数分布族，其相关参数为：

Gaussian分布

正太分布的形式为：
在这里插入图片描述
写成指数形式为：

因此，也满足指数组分布：

高斯分布有两个参数，因此自然参数以及充分统计量都有两个。

多元Gaussian分布

标准形式为：
在这里插入图片描述
写成指数族形式：

对比：

可以得到：

自然参数为：

cumulant function为：

Multinomial分布

多项式分布的形式为：
在这里插入图片描述
重写为：

从这里发现，累计函数 $A(\eta)$ 为0了，实际上并不为0。继续转化有：

这里有：

因此，可以得到：

由这个式子可以转化得到 $\pi_{k}$ ，即：

可以看出这个式子是softmax函数。
另外，我们也可以获得：
在这里插入图片描述

变分推断应用

在变分推理中，经常使用到的是 $A(\eta)$ 性质，即 $A(\eta)$ 对 $(\eta$ 的一阶偏导数：
在这里插入图片描述
上面这个公式，可以由最原始的公式得到。继续计算有：

例如，对二项分布而言：

对正太分布而言：

在变分推理中，经常要计算期望，通过这个性质，便可以将期望计算转化成求导计算。例如，

LDA模型

LDA的概率图表示如下：
在这里插入图片描述
主题分布 $\theta$ 服从先验为 $\alpha$ 的Dirichlet分布，即：

其中：

对 $\theta$ 的分布进行转化有：

因此，可以看出Dirichlet分布也属指数分布，由上面的公式得到：
自然参数 $\eta _{i}$ :

sufficient statistic为：
在这里插入图片描述
log normalizer或cumulant function为：

基于上面这三个公式有：

在LDA的变分推理中，需要将下界ELOB转化为多项期望，如下面所示：

此公式中，包含多个期望，在计算时，每个期望都需要推导出公式。由于前面已经分析参数 $\theta$ ，下面只例举 $E_q[logp(\theta_j|\alpha)]$ :
在这里插入图片描述
在上面公式标红的部分，便可转化成偏导的计算，这里 $\theta$ 对应的变分参数为 $\gamma$ ，即：

这里的log normalizer或cumulant function为：

进而可以计算公式标红的期望：

其中， $\Psi(\cdot)$ 为digamma函数，及Gamma函数对数的一阶偏导数。因此有：
在这里插入图片描述
关于其他期望的求法与这个类似，这里不作过多赘述，有兴趣的可以学习这篇文章：
Inference Methods for Latent Dirichlet Allocation