潜在狄利克雷分布（LDA）初探

最新推荐文章于 2023-11-27 12:30:29 发布

VariableX

最新推荐文章于 2023-11-27 12:30:29 发布

阅读量1.3k

点赞数 1

分类专栏：机器学习基础文章标签：机器学习人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/VariableX/article/details/106385012

版权

LDA是一种词袋模型，用于文本分析，它假设文档由多个主题构成，每个词由一个主题生成。狄利克雷分布是多项式分布的共轭先验，LDA在文本生成中使用狄利克雷分布作为话题和单词的先验，以防止过拟合。LDA与PLSA的主要区别在于LDA引入了先验分布。

摘要由CSDN通过智能技术生成

文章目录

多项式分布与狄利克雷分布
- 多项式分布
- 狄利克雷分布
潜在狄利克雷分布模型
- 文本生成
- 模型定义
LDA 与 PLSA 异同

潜在狄利克雷分布（Latent Dirichlet Allocation, LDA），是一种无监督学习算法，用于识别文档集中潜在的主题词信息。在训练时不需要手工标注的训练集，需要的仅仅是文档集以及指定主题的数量 k 即可。对于每一个主题均可找出一些词语来描述它。

LDA是一种典型的词袋模型，即它认为一篇文档是由一组词构成的一个集合，词与词之间没有顺序以及先后的关系。一篇文档可以包含多个主题，文档中每一个词都由其中的一个主题生成。

多项式分布与狄利克雷分布

狄利克雷分布是多项式分布的共轭先验概率分布。

多项式分布

假设重复进行 $n$ 次独立随机试验，每次试验可能出现的结果有 $k$ 种，第 $i$ 种结果出现的概率为 $p_i$ ，第 $i$ 种结果出现的次数为 $n_i$ ，随机变量 $X=(X_1,X_2,\ldots,X_k)$ 表示试验所有可能的结果的次数， $X_i$ 表示第 $i$ 种结果出现的次数。那么随机变量X服从多项分布：
$P(X_1=n_1,X_2=n_2,\ldots,X_k = n_k) = \frac{n!}{n_1!n_2!\ldots n_k!} p_1^{n_1} p_2^{n_2}\ldots p_k^{n_k}$
其中 $p=(p_1, p_2,...,p_k)，\sum_{i=1}^k p_i =1, \sum_{i=1}^k n_i =n$

最低0.47元/天解锁文章

关注

1
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。