关于LDA主题模型的一些数学知识笔记

最新推荐文章于 2022-05-05 21:43:17 发布

浅歌一梦

最新推荐文章于 2022-05-05 21:43:17 发布

阅读量620

点赞数 1

分类专栏：短文本聚类文章标签： LDA 狄利克雷分布

本文链接：https://blog.csdn.net/baidu_38396237/article/details/86310663

版权

短文本聚类专栏收录该内容

1 篇文章 0 订阅

订阅专栏

本文详细介绍了LDA主题模型背后的数学知识，包括二项分布、多项分布、Beta分布、Dirichlet分布以及共轭分布的概念，强调了在贝叶斯框架下先验分布和后验分布的重要性，并探讨了LDA模型生成文档的过程。

摘要由CSDN通过智能技术生成

前言

要理解LDA，需要先了解以下知识：

一个函数：gamma函数
四个分布：二项分布、多项分布、beta分布、Dirichlet分布
一个概念和一个理念：共轭先验和贝叶斯框架
两个模型：pLSA、LDA
一个采样：Gibbs采样
LDA模型生成一篇文档的方法如下：
从狄利克雷分布 $\alpha$ 中取样生成文档 i 的主题分布 $\theta(i)$
从主题的多项式分布 $\theta(i)$ 中取样生成文档i第 j 个词的主题 $z_{i,j}$
从狄利克雷分布 $\beta$ 中取样生成主题 $z_{i,j}$ 对应的词语分布 $\varPhi_{z(i,j)}$
从词语的多项式分布 $\varPhi_{z(i,j)}$ 中采样最终生成词语 $w_{i,j}$
-

二项分布

是重复n次的伯努利试验（一个有两种结果的简单试验，概率分别为p,q）得到的一个离散型的随机概率分布，其各中结果的概率取值对应以下二项式的展开项：

$(p+q)^{n}=p^{n}+...+\dbinom{i}{n}q^{i}p^{n-i}+....+q^{n}$
其中p+q=1;且上式第 i 项表示概率p对应的结果出现i次，概率q对应的结果出现n-i次

多项分布

是二项分布在多维上的扩展，事件的结果不在是两种，可能有k中，每种结果出现的概率为 $p_1,p_2,...,p_k$ ， $\sum_{1\le i\le k} p_{i}=1$ ,先重复该事件n次得到一个离散型的随机概率分布，其各种结果的概率值对应以下多项式的展开项：

$(p_1+p_2+...+p_k)^n=[(p_1+p_2+..+p_{k-1})+p_k]^n=(p_1+p_2+..+p_{k-1})^n+...+\dbinom{i}{n}p_k^{i}(p_1+p_2+..+p_{k-1})^{n-i}+...+p_k^n$

按前一步方法以二项式的形式继续展开，每项的连乘积约分后得到每种结果的概率，以下是 $p_1,p_2,...p_k概率对应结果出现次数为m_1,m_2,...m_k$ ( $\sum_{1\le i\le k} m_{i}=n$ )的概率：

$P(m_1,m_2,...m_k)=\frac{n!}{m_1!m_2!..m_k!}p_1^{m_1}p_2^{m_2}...p_k^{m_k}$

先验分布

简言之，就是关于某未知参数θ，通过先验信息(在实验之前对所要估计的未知参数θ所了解的信息，通常称为先验信息.)得到的一个关于θ的分布形式用P(θ)来表示，此分布p(θ)称为未知参数θ的先验分布.(即在实验前通过已知信息知道的分布)

后验分布

似然估计

似然估计用来描述在已知随机变量输出结果时，估计未知参数的可能取值；似然函数是以函数的形式表示估计未知参数可能的取值；例如，对于“一枚硬币上抛十次”这种事件，我们可以问这枚硬币正反面对称的“似然”程度是多少。给定输出x时，关于未知参数θ的似然函数L(θ|x)（在数值上）等于给定参数θ后变量X的概率：

L(θ|x)=P(X=x|θ)

后验分布

在抽样之前，人们对未知参数θ有个了解，即先验分布P(θ)；抽样后得到样本相关信息可用来估计未知参数θ的可能取值，即似然函数L(θ|X=x)；由于样本中包含未知参数θ的信息，可以修正抽样之前的关于未知参数θ的先验分布P(θ) 得到后验分布P(θ|X)，后验分布综合运用了先验分布P(θ)和样本信息P(X|θ)。

共轭分布

在贝叶斯概率理论中，若后验概率P(θ|X)和先验概率P(θ)属于同类分布(形式相同，参数不同)，则先验分布和后验分布被叫做共轭分布，同时，先验分布叫做似然函数的共轭先验分布。
共轭分布总是针对分布中的某个参数θ而言

Beta分布

参考这篇文章
Beta分布是二项分布的共轭先验分布，具体表示一组定义在(0,1)区间的连续概率分布，其概率密度函数如下（ $\alpha和\beta为参数$ ）：

$f(x,\alpha,\beta)=\frac{x^{\alpha-1}(1-x)^{\beta-1}}{\int_{0}^{1}u^{\alpha-1}(1-u)^{\beta-1}du}=\frac{\Gamma(\alpha+\beta)}{\Gamma(\alpha)\Gamma(\beta)}x^{\alpha-1}(1-x)^{\beta-1}=\frac1{B(\alpha,\beta)}x^{\alpha-1}(1-x)^{\beta-1}$

其中 $\Gamma(x)为Gamma函数（表示阶乘数列在实数集上的扩展）$

$\Gamma(x)=\int_{0}^{+\infty}t^{x-1}e^{-t}dt$

Dirichlet分布

是多元的Beta分布，是Beta分布在高维上的扩展，我的理解是：Beta分布和Dirichlet分布的关系类似于二项分布和多项分布的关系；那么，Dirichlet分布就是多项分布的共轭先验分布。
理解案例：Dirichlet分布可以看做是某个概率分布之上的概率分布。如何理解这句话，我们可以先举个例子：假设我们有一个骰子，其有六面，分别为{1,2,3,4,5,6}。现在我们做了10000次投掷的实验，得到的实验结果是六面分别出现了{2000,2000,2000,2000,1000,1000}次，如果用每一面出现的次数与试验总数的比值估计这个面出现的概率，则我们得到六面出现的概率，分别为{0.2,0.2,0.2,0.2,0.1,0.1}。现在，我们还不满足，我们想要做10000次试验，每次试验中我们都投掷骰子10000次。我们想知道，骰子六面出现概率为{0.2,0.2,0.2,0.2,0.1,0.1}的概率是多少（说不定下次试验统计得到的概率为{0.1, 0.1, 0.2, 0.2, 0.2, 0.2}这样了）。这样我们就在思考骰子六面出现概率分布这样的分布之上的分布。而这样一个分布就是Dirichlet分布。[案例参考自deropty]）
Dirichlet分布的概率密度函数如下（ $\alpha_i为参数$ ）：

$f(x_1,x_2,...,x_k;\alpha_1,\alpha_2,...,\alpha_k)=\frac{1}{B(\alpha)}\prod_{{i=1}}^{{k}}x_i^{\alpha_i-1} (其中\alpha=(\alpha_1,\alpha_2,..,\alpha_k))$

其中

$B(\alpha)=\frac{\prod_{i=1}^k\Gamma(\alpha^i)}{\Gamma(\sum_{{i=1}}^{{k}}\alpha^i)}，\sum_{i=1}^kx_i=1$

按照贝叶斯推理的逻辑：

$我们要猜测参数\overrightarrow{p}=(p_1,p_2,p_3)，其先验分布为Dir(\overrightarrow{p}|\overrightarrow{k})$ ；
$数据Y_i落到三个区间[0,p_1)，[p_1,p_2]，(p_3,1] 的个数分别为m_1,m_2,m_3，所以\overrightarrow{m}=(m_1,m_2,m_3)服从多项分布Mult(\overrightarrow{m}|\overrightarrow{p})$ ;
$在给定了来自数据提供的知识\overrightarrow{m}后，\overrightarrow{p}的后验分布变为Dir(\overrightarrow{p}|\overrightarrow{k}+\overrightarrow{m})$

上述贝叶斯分析过程的直观表述为：

$Dir(\overrightarrow{p}|\overrightarrow{k})+MulitCount(\overrightarrow{m})=Dir(\overrightarrow{p}|\overrightarrow{k}+\overrightarrow{m})$

其中：

$Dir(\overrightarrow{p}|\overrightarrow{\alpha})=\frac{\Gamma(\sum_{k=1}^K\alpha_k)}{\prod_{k=1}^K \Gamma(\alpha_k)}\prod_{k=1}^Kp_k^{\alpha_k-1}$

$MulitCount(\overrightarrow{n}|\overrightarrow{p},N)=\dbinom{N}{\overrightarrow{n}}\prod_{k=1}^Kp_k^{n_k}$

其思考问题的固定模型：

$先验概率\pi(\theta) +样本信息\chi\implies后验分布\pi(\theta|x)$

$上述思考模式意味着，新观察到的样本信息将修正人们以前对事物的认知。换言之，在得到新的样本信息之前，人们对的认知是先验分布\pi(\theta)，在得到新的样本信息后，人们对的认知为\pi(\theta|x)。$

频率派系: 频率派把需要推断的参数θ看做是固定的未知常数，即概率虽然是未知的，但最起码是确定的一个值，同时，样本X 是随机的，所以频率派重点研究样本空间，大部分的概率计算都是针对样本X 的分布；
贝叶斯派系： 贝叶斯派的观点则截然相反，他们认为待估计的参数 $\theta$ 是随机变量，且服从一定的分布，而样本X 是固定的，由于样本是固定的，所以他们重点研究的是参数的分布。
具体的LDA模型解析可以参考【参考资料1】