LDA主题模型1——数学基础

最新推荐文章于 2022-05-14 15:28:48 发布

端坐的小王子

最新推荐文章于 2022-05-14 15:28:48 发布

阅读量333

点赞数 2

分类专栏：推荐系统 NLP 文章标签：共轭函数算法 nlp

本文链接：https://blog.csdn.net/u012290039/article/details/105776755

版权

推荐系统同时被 2 个专栏收录

21 篇文章 20 订阅

订阅专栏

NLP

6 篇文章 1 订阅

订阅专栏

相信很多人第一次看到LDA算法都会头大，不管是看论文还是看博客，都少不了各种各样的公式和理论，概率分布、共轭分布、贝叶斯公式、Gibbs采样等等，一大堆耳熟又陌生的词，经常带着一大堆问号去学习，又带着一大堆问号离开。。。本篇文章将会一点点的将其攻克。

下一篇 LDA主题模型2——算法原理

就像大家所看到的一样，LDA需要很多数学基础，这是毋庸置疑的，LDA的数学基础有很多，最主要的两个是共轭分布的一些列概念与Gibbs采样的概念。关于Gibbs采样，我有专门的文章对其总结，从问题描述到原理演进到案例展示都很详细，强烈建议有需要的同学点击这个链接阅读https://blog.csdn.net/u012290039/article/details/105696097
接下来我们来重点讨论共轭分布的概念。

提到共轭分布，不得不说一下全概率公式、贝叶斯公式、先验分布、后验分布、似然函数等概率论的相关概念，等对这些有了系统概念体系有了了解，我们就很容易明白共轭分布，也对LDA的原理有启示的作用。

概念1：全概率公式

$P(B)=\sum_{i=1}^{n}P(A_i)P(B|A_i)$

如果我们把事件B看做’结果’,把诸事件A1,A2…看做导致这个结果的可能的’原因’,则可以形象地把全概率公式看做成为’由原因推结果’

概念2：贝叶斯公式

$P(A_1|B)=\frac{P(A_1,B)}{P(B)}=\frac{P(A_1)P(B|A_1)}{\sum_{i=1}^{n}P(A_i)P(B|A_i)}$

贝叶斯公式则恰好相反,其作用于’由结果推原因’:现在有一个’结果’B已经发生,在众多可能的’原因’中,到底是哪一个导致了这结果"。贝叶斯公式表示，在众多原因中，某一个原因导致结果的概率。

概念3：先验概率、后验概率、似然函数

以上贝叶斯公式 $P (A ∣ B)$ 是后验概率， $P (A)$ 是先验分布， $P (B ∣ A)$ 是似然函数， $P (B ）$ 是全概率公式的展开。或许在实际应用中，这个公式，我们更加熟悉：
$P(\theta|x)=\frac{P(\theta,x)}{P(x)}=\frac{P(x|\theta)P(\theta)}{P(x)}$

x表示样本， $\theta$ 表示参数，一般我们的参数是概率分布的参数，所以参数也就表示了原因。

先验分布 $P(\theta)$ ： 在观察样本之前，按照经验认为 $\theta$ 符合某种概率分布，是纯主观的经验估计。比如出门乘坐交通工具，我们认为有步行、公交、地铁三种，概率均为 $\frac{1}{3}$ ，那么如果10分钟之内到达目的地，原因就有三种可能性。

后验分布 $P(\theta|x)$ ： 在考在观察一系列样本数据 $x$ 后，模型参数 $\theta$ 服从的概率分布，实际是对先验分布的修正更接近事实情况。比如上面的例子，10分钟之内行程1公里，那么三种原因的概率就不再是简单的先验各 $\frac{1}{3}$ 的情况了。

似然函数 $P(x|\theta)$ ： 在给定模型参数 $\theta$ 的条件下，样本数据 $x$ 服从这一概率模型的相似程度。比如：可以想象一下逻辑回归的推导过程，定义 $\theta$ 参数，由 $s i g m o i d$ 函数逐渐推导出样本数据的概率模型，然后最大似然求极值。

全概率公式 $P (x)$ ： $x$ 是样本， $P (x)$ 是一个确定值，可以通过全概率公式展开。

概念4：共轭分布

$P(\theta|x)=\frac{P(x|\theta)P(\theta)}{P(x)}$

$P (x)$ 是一个定值，我们将其看做是一个系数，暂不考虑。如果后验概率分布 $P(\theta|x)$ 和先验概率分布 $P(\theta)$ 满足同样的分布规律，那么，先验分布和后验分布被叫做共轭分布。简单来理解：参数分布在经过观察一系列数据后仍然符合原来的分布规律。先验分布*数据（似然）= 后验分布，接下来详细解释。

LDA用到的共轭分布

LDA为什么要用到共轭分布呢？其实，这是一种计算技巧，不用共轭能不能算，也能算，有一个模型Correlated Topic Model代码量是相当大的。当我们每观察一次模型，后验概率与先验概率是同一种分布的时候，问题就变得简单了。

1）二项式分布与Beta分布

$\begin{aligned} Binorm(k|n,p)&=C_n^kp^k(1-p)^{n-k}\\ &=\frac{n!}{k!(n-k)!}p^k(1-p)^{n-k} \end{aligned}$

k表示随机变量（x轴），随机变量取不同的值形成的数据分布，表示为二项式分布，是离散分布。期望值E(x)=np

$\begin{aligned} Beta(p|\alpha,\beta)&=\frac{\Gamma(\alpha+\beta)}{\Gamma(\alpha)\Gamma(\beta)}p^{\alpha-1}(1-p)^{\beta-1}\\ \Gamma(x)&=(x-1)! \end{aligned}$

p表示随机变量（x轴），p取不同的值，形成的分布就是Beta分布，是连续分布。关于这一点同样用于多项式分布与Dirichlet分布。发现了什么？Beta分布的变量是二项式分布数据的参数，仔细理解。
这也是为什么有时候我们看到：比如高斯分布求期望是E(X)=u,二项式分布的期望E(x)=np,而Beta分布求期望用的是E( p)，变量不同。

我们来看下以 $B e t a$ 分布为先验的二项式分布的共轭分布：
$\begin{aligned} P(k|n,p)P(p|\alpha,\beta) & =Binorm(k|n,p)Beta(p|\alpha,\beta)\\ & =C_n^kp^k(1-p)^{n-k} * \frac{\Gamma(\alpha+\beta)}{\Gamma(\alpha)\Gamma(\beta)} p^{\alpha-1}(1-p)^{\beta-1}\\ &=\propto{p^{k+\alpha-1}{1-p}^{n-k+\beta -1}} \end{aligned}$

可见，我们的后验分布确实与先验分布一样，还是Beta分布。

OK，我们回过头来在此看一下共轭分布的概念，结合具体的二项式分布与Beta分布加深理解：
先验分布 $P(\theta)$ *数据（似然） $P(x|\theta)$ = 后验分布 $P(\theta|x)$
1）数据（似然） $P(x|\theta)$ ：不难理解，这里表示符合二项式分布的数据，用二项式分布的参数 $\theta$ 表示了。
2）先验分布 $P(\theta)$ ：数据分布参数 $\theta$ 并不是固定的，经验上本身符合一定的概率分布，这里是 $B e t a$ 分布，称为先验，注意这里 $\theta$ 是变量，Beta分布表示不同 $\theta$ 变量的概率表示。
3）后验分布 $P(\theta|x)$ ：我们观察到了数据的分布 $P(x|\theta)$ ，先验经过修正变成了后验，但是这里仍然是参数 $\theta$ 变量的概率表达式，本质上与先验一样，只不过是经过修正了的。而共轭的特性让先验与后验称为了统一分布形式，后验可以继续以先验的形式计算，这是非常有利的。
多项式分布与 $D i r i c h l e t$ 分布同理

Beta分布有个重要的性质，期望值：
$\begin{aligned} E(Beta(p|\alpha,\beta)) &=\int_0^1{t*Beta(p|\alpha,\beta)}dt\\ &=\int_0^1{t*\frac{\Gamma(\alpha+\beta)}{\Gamma(\alpha)\Gamma(\beta)}t^{\alpha-1}(1-t)^{\beta-1}}dt\\ &=\int_0^1{\frac{\Gamma(\alpha+\beta)}{\Gamma(\alpha)\Gamma(\beta)}t^{\alpha}(1-t)^{\beta-1}}dt\\ &=\frac{\Gamma(\alpha+\beta)}{\Gamma(\alpha)\Gamma(\beta)}\frac{\Gamma(\alpha+1)\Gamma(\beta)}{\Gamma(\alpha+\beta+1)}\\ &=\frac{\alpha}{\alpha+\beta} \end{aligned}$

上式中，概率分布积分为1，所以只剩下了系数。

2）多项式分布与Dirichlet分布
多项式分布为：
$\begin{aligned} multi(m_1,m_2,m_3|n,p_1,p_2,p_3)=\frac{n!}{m_1!m_2!m_3!}p_1^{m_1}p_2^{m_2}p_3^{m_3} \end{aligned}$

我们用向量 $\vec{m}$ 表示 $m_1,m_2,m_3,...]$
$\begin{aligned} multi(\vec{m}|n,\vec{p})=(\begin{matrix}n\\ \vec{m}\end{matrix}) \prod_{k=1}^{K} p_k^{m_k} \end{aligned}$
$D i r i c h l e t 分布为：$
$\begin{aligned} Dirichlet(p_1,p_2,p_3,|\alpha_1,\alpha_2,\alpha_3) &=\frac{\Gamma(\alpha_1+\alpha_2+\alpha_3)}{\Gamma(\alpha_1)*\Gamma(\alpha_2)*\Gamma(\alpha_3)}p_1^{\alpha_1-1}p_2^{\alpha_2-1}p_3^{\alpha_3-1}\\ Dirichlet(\vec{p}|\vec{\alpha})&=\frac{\Gamma(\sum_{k=1}^{K}\alpha_k)}{\prod_{k=1}^{K} \Gamma(\alpha_k)}\prod_{k=1}^{K}p_k^{\alpha_k-1}\\ \end{aligned}$

多项式分布和 $D i r i c h l e t$ 的共轭性质与二项式分布与 $B e t a$ 分布一样。在LDA中我们真正应用的是多项式分布和 $D i r i c h l e t$ 的共轭性质，但是在二项式分布与 $B e t a$ 分布中我们详细描述的共轭关系解释在这里完全一样

同理我们可以得到 $D i r i c h l e t$ 分布的期望值。
$E(Dirichlet(\vec{p}|\vec{\alpha}))=(\frac{\alpha_1}{\sum_{k=1}^{K}\alpha_k},\frac{\alpha_2}{\sum_{k=1}^{K}\alpha_k},...,\frac{\alpha}{\sum_{k=1}^{K}\alpha_k})$

关于期望值的性质，非常重要，为什么？因为一般情况下我们感兴趣的是并不是分布本身，而是其期望值，这在我的另一篇文章MCMC中也强调过，这在接下来要讲的LDA中有明显的体现。

另外一点，由于 $D i r i c h l e t$ 分布表达比较复杂，我们一般对其进行简化：
$\begin{aligned} Dirichlet(\vec{p}|\vec{\alpha}) &=\frac{\Gamma(\sum_{k=1}^{K}\alpha_k)}{\prod_{k=1}^{K} \Gamma(\alpha_k)}\prod_{k=1}^{K}p_k^{\alpha_k-1}\\ &=\frac{1}{\Delta(\vec{\alpha})}\prod_{k=1}^{K}p_k^{\alpha_k-1} \end{aligned}$
其中的 $\Delta(\vec{\alpha})$ 是归一化因子：
$\begin{aligned} \int \frac{\Gamma(\sum_{k=1}^{K}\alpha_k)}{\prod_{k=1}^{K} \Gamma(\alpha_k)}\prod_{k=1}^{K}p_k^{\alpha_k-1}=1 \end{aligned}$

$\begin{aligned} \Delta(\vec{\alpha}) &=\frac{\prod_{k=1}^{K} \Gamma(\alpha_k)}{\Gamma(\sum_{k=1}^{K}\alpha_k)}\\ &=\int \prod_{k=1}^{K}p_k^{\alpha_k-1} \end{aligned}$
对这个式子有点印象就可以了，下一节我们继续总结LDA的原理。

参考资料：
https://www.cnblogs.com/pinard/p/6831308.html
https://zhuanlan.zhihu.com/p/31470216
https://www.jianshu.com/p/fa97454c9ffd

下一篇 LDA主题模型2——算法原理

端坐的小王子

关注

2
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
LDA主题模型1——数学基础

相信很多人第一次看到LDA算法都会先皱眉头，不管是看论文还是看博客，都少不了各种各样的公式和理论，概率分布、共轭分布、贝叶斯公式、Gibbs采样等等，一大堆耳熟又陌生的词，经常带着一大堆问号去学习，又带着一大堆问号离开。。。本篇文章将会一点点的将其攻克。LDA的数学基础有很多，最主要的两个是共轭分布的概念与Gibbs采样的概念。关于Gibbs采样，我有专门的文章对其总结，从问题到原理到案例，有...
复制链接

扫一扫