LDA主题模型

最新推荐文章于 2022-08-31 18:10:20 发布

minimumZHU

最新推荐文章于 2022-08-31 18:10:20 发布

阅读量2k

点赞数 3

文章标签：机器学习 python

本文链接：https://blog.csdn.net/minimumZHU/article/details/115802205

版权

快速了解LDA主题模型的概念

在介绍LDA主题模型之前首先得明白什么叫做主题模型，主题模型是指基于无监督学习的方法对文档的隐含的语义结构进行聚类的一种模型。
LDA（Latent Dirichlet Allocation）指的是隐含狄立克雷分布。
在具体介绍隐含狄立克雷分布，我们要弄明白为啥是隐含的，为啥用狄立克雷分布？这就需要先介绍几个数学上的概念。
1先验分布与后验分布
先验分布指的是在观测数据之前就能够通过先验知识得到的一种概率分布。比如，现在桌子上有3个球，随机拿一个球的概率是多少？答案很明显，并不需要任何的实验和计算，我们都知道是1/3，这就是根据先验知识得到的，把它记作f（θ）。
后验分布，也就是我们熟知的贝叶斯条件概率分布的这一种，把它记作f（θ|x）。
贝叶斯条件概率公式
这也就表示了后验分布=c似然函数*先验分布，其中归一化常数c的积分是高维积分，难以直接进行计算。这时候就需要用到Gibbs采样或者变分推断EM（期望最大化）算法来找到后验分布的收敛值。
弄清楚了先验分布和后验分布，是为了引入共轭分布。共轭分布是指，如果后验分布与先验分布属于同类即分布形式相同，则称它们为共轭分布。根据上面的贝叶斯条件概率和贝叶斯推断（任何的推断都必须也只须根据后验分布，不再涉及先验分布），那就是说重点就是求共轭分布中的后验分布。那么数学中的那些分布是共轭分布呢？
2二项分布与Beta分布
二项分布是指n个独立的成功/失败试验中成功的次数的离散概率分布。当n=1时，二项分布就是伯努利分布。
二项分布的概率以及期望

Beta分布是一个作为伯努利分布和二项分布的共轭先验分布的密度函数。
Beta分布的概率密度
3多项分布与Dirichlet 分布
多项分布是二项分布的推广形式，Dirichlet 分布是Beta分布的高维形式。
Dirichlet 分布的密度函数其中 B(α)
数学的基础知识就到这里了，接下来开始具体的介绍LDA主题模型了。
LDA是一种无监督的三层贝叶斯主题模型，三层指的是将文档划分为词、主题、文档，在词和文档之间引入主题的概率是为了计算词之间隐含的关系，比如“春风十里，不如你”，“我寻找的春天，你一笑便是了”这两句话都是表达了我喜欢你的情感，但是这两句话之间的词大都不一样；还是一种词袋模型，词袋是指文档中的词之间没有先后顺序，比如我喜欢你和你喜欢我。
LDA主题模型流程图 LDA流程图
M是由多种像N这样的文档组成的文档集，W是N文档中某个词，W这个词由两部分来决定。第一部分是由左边的主题Z来决定，这个Z是由主题向量θ决定，而θ由超参数α决定；另一部分是由右边的词向量φ决定，φ又由超参数β决定。那么是具体都是怎么决定的呢？
这又得说下贝叶斯学派角度下得统计模型，假设现在有一个装有无穷多个骰子得坛子，里面装有各种各样得骰子，每个骰子都有V面。从坛子中抽取一个骰子出来，然后使用这个骰子不断抛掷，直到产生语料库中所有的词。那么骰子得每个面都相当于一个词，每个骰子都相当于一个主题，无论骰子本身还是骰子的每个面都是随机挑选的。也就是说，要想得到语料库中的所有词，就需要先随机一个主题，然后再随机选词。而主题向量和词向量是把主题和词向量化，从而能够更好的引入数据。两个超参数α和β，是机器学习在学习过程之前就已经设置好的参数值，但需要对超参数进行优化，来提高性能和效果。
具体每一步的概率求值
虽然我们把模型都转化成了Dirichlet分布的后验概率，但是后验概率直接求解比较困难，我们还需要借助Gibbs采样或者变分推断EM（期望最大化）算法来找到它的收敛值。
到这也就差不多是整个LDA主题模型的大概流程了。

参考文献
https://baike.baidu.com/
https://zhuanlan.zhihu.com/p/31470216
https://blog.csdn.net/huagong_adu/article/details/7937616
https://www.cnblogs.com/pinard/p/6831308.html