LDA更清晰的解析

最新推荐文章于 2022-05-05 21:43:17 发布

feixiangcq

最新推荐文章于 2022-05-05 21:43:17 发布

阅读量1w

点赞数

分类专栏：论文学习文章标签： allocation 算法文档图形

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/feixiangcq/article/details/5655086

版权

论文学习专栏收录该内容

5 篇文章 0 订阅

订阅专栏

1.LDA文档生成过程

说明：PLSA只能选择一个主题。这是区别所在。

2.经典的LDA图形表示：

说明：w为词语，可以观察到的值，其它均为隐含变量。图反映了生产一篇文档的过程，对于词语w,首先选定一个主题z,而z服从θ的多项式分布Multinomial(θ)；而θ又服从α的Dirichlet(α)的分布。在选定一个主题后，还得确定对应于该主题下词语w的概率，可以从β获得。β为一个K*V的矩阵。其中K代表主题维数，V代表词语维数。

3.LDA的概率模型推导

（好好补补概率的知识）

计算边缘概率，即为：

其中D代表（z,w），即为一个语料库，M代表语料库中文档个数。D相当于一个文档变量，包含内容：主题和词汇。

4.参数估计

通过对LDA生成模型的讨论我们理解到对文本的建模实际上就是要计算α和β两个参数。α和β可以采用极大似然估计，但是这里遇到一个问题，就是似然函数由于α和β的耦合无法直接求出来。可以采用EM算法求出参数。每次E-STEP输入α和β，计算似然函数，也就是variational inference（注：实际上变分推理用一个函数来近似后验分布）的过程，M-STEP最大化这个函数，求出α和β。这样不断迭代知道收敛，就求得了最终的α和β值。变分推理过程中简化的模型如下：这里假设了θ和z相互独立，并丢掉w节点。

对应公式：

5.EM算法

通过如上解释，EM算法就很清晰了。

E-STEP:
对每一篇文档，计算参数γ=f(α,β)和Φ=g(α,β)
M-STEP：
最大化Variational Inference中的下界，求出此时的 α和β
反复迭代，知道参数收敛为止。

6.几个模糊点

（1）EM算法和变分推理算法

参考文献：

Latent dirichlet allocation note By: Zhou Li (smzlkimi@gmail.com)

关注

0
点赞
踩
7

收藏

觉得还不错? 一键收藏
3
评论
LDA更清晰的解析

1.LDA文档生成过程说明：PLSA只能选择一个主题。这是区别所在。 2.经典的LDA图形表示：说明：w为词语，可以观察到的值，其它均为隐含变量。图反映了生产一篇文档的过程，对于词语w,首先选定一个主题z,而z服从θ的多项式分布Multinomial(θ)；而θ又服从α的Dirichlet(α)的分布。在选定一个主题后，还得确定对应于该主题下词语w的概率，可以从β获得。β为一个K*V的矩阵。其中K代表主题维数，V代表词语维数。 3.LDA的概率模型推导（好好补补概率的知识）计
复制链接

扫一扫

专栏目录

feixiangcq CSDN认证博客专家 CSDN认证企业博客

码龄17年

13: 原创

111万+: 周排名

59万+: 总排名

8万+: 访问

: 等级

994: 积分

8: 粉丝

3: 获赞

10: 评论

5: 收藏

私信

关注

热门文章

分类专栏

最新评论

在线主题演化模型
一勺帅汤: 你好，我想问一下主题演化的图一般是怎么弄
在线主题演化模型
qq_39776515: 你好~这种加入先验的主题模型细粒度会提升？适合对期刊和专利文本的挖掘吗？
Hash碰撞
童话的守望者: U ask me, I ask who
LDA更清晰的解析
CanaanShen: 学习了
Hash碰撞
mrsupersky: 其实因为值域是无限的所以Hash碰撞是必然的...只是如何找出碰撞的时间，速度问题...

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论 3

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。