LDA理解以及源码分析（一）

最新推荐文章于 2024-08-10 07:30:20 发布

蜡笔大龙猫

最新推荐文章于 2024-08-10 07:30:20 发布

阅读量1.7w

点赞数 7

分类专栏：机器学习算法主题模型算法文章标签： python LDA

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/pirage/article/details/50239125

版权

本文介绍了LDA（Latent Dirichlet Allocation）的基础知识，包括共轭、Multinomial分布和Dirichlet分布，并详细阐述了LDA在文本主题建模中的概率图模型、参数推导和Gibbs Sampling的近似推导方法，同时提供了LDA的Python实现概述。

摘要由CSDN通过智能技术生成

LDA系列的讲解分多个博文给出，主要大纲如下：

LDA相关的基础知识
- 什么是共轭
- multinomial分布
- Dirichlet分布
LDA in text
- LAD的概率图模型
- LDA的参数推导
- 伪代码
GibbsLDA++-0.2源码分析
Python实现GibbsLDA
参考资料

LDA相关的基础知识

LDA是Blei于2002年发表的概率语言模型，被广泛应用于主题建模中，通过对文本进行潜语义分析，发现文本在主题上的概率。通俗点说，给定一堆文档集合documents，每篇document由多个word表示，则LDA的作用就是找到document在topic上的分布情况，以及word在topic上的分布情况，而这些分布都服从某种概率分布，这样，可以解决一词多义这种情况，比如说apple这个词，在“电子产品”和“水果”这两个主题上都有概率，而且可能差不多。

首先，我们先来了解几个知识。

什么是共轭

以二维情况下为例，二项分布的参数p选取的先验分布是Beta分布时，以p为参数的二项分布用贝叶斯估计后得到的仍是Beta分布，所以二项分布和Beta分布共轭。

先验 + 数据的知识 = 后验

① p的先验：f(p)~Beta(p|α,β)
② 数据的知识：例如抛硬币，m次正面，n次负面，m~B(m+n,p)
③ p的后验：f(p|m,n)~Beta(p|α+m,β+n)

Note

Dirichlet分布是Multinomial分布的先验分布

文本模型中，document-topic和topic-word都服从Multinomial分布，其先验选取Dirichlet分布

Multinomial分布和Dirichlet分布

Multinomial分布的分布律如下：

最低0.47元/天解锁文章

蜡笔大龙猫

关注

7
点赞
踩
19

收藏

觉得还不错? 一键收藏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。