LDA论文学习笔记

最新推荐文章于 2022-06-26 12:06:10 发布

vs412237401

最新推荐文章于 2022-06-26 12:06:10 发布

阅读量3.6k

点赞数

分类专栏：机器学习文章标签：机器学习

本文链接：https://blog.csdn.net/vs412237401/article/details/50634273

版权

本文主要探讨了David M. Blei的LDA论文，重点介绍了LDA如何处理词、文档和语料，以及其生成概率模型的过程。LDA假设文档由若干潜在主题随机组合而成，每个主题又对词有特定分布。处理流程包括根据Poisson分布选择词数，Dirichlet分布选择主题，再在文档中依据主题选择词。论文还提到了一些基础模型的假设，例如Dirichlet分布的固定维度、词的概率矩阵等。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

以下内容节选自David M. Blei的论文《Latent Dirichlet Allocation》主要是选自LDA的处理流程部分，可能理解上有很大的偏差，或者表达上有问题，如有误导还想大家多多指教。
LDA原始论文链接为：http://www.jmlr.org/papers/volume3/blei03a/blei03a.pdf

LDA中关于词，文档，语料的定义：
1．词（word）是基本的离散数据单元，对词的展示是使用向量，如果词典里面有对应的某个词，则为1，否则为0。
2．文档是N个词的序列，和上面的词有直接的关系，用w表示。
3．语料是M个文档的集合，用D表示。
LDA的目标是找一个概率模型的语料集合，不仅将高概率的词分配给语料的成员，还将高概率的词分配给相似的文档。LDA是语料的生成概率模型，他的基本思想是文档是一些潜在的主题的随机组合，并且主题在词上也满足一定的分布。
对于语料D中的每一个文档w，LDA按如下的处理流程：
1．根据Poisson分布选择词N
2．根据Dirichlet分布选择主题cita
3．对每个文档w(下标n)中的词
(a) 从满足多项式分页的cita中选择一个主题Z 。
(b) 在多项式的条件概率分布和主题的情况下选择文档w(下标n)的词。

以上的基本模型有以下的假设：
1. Dirichlet分布的维度k是可知并且不变的
2. 词的概率是一个固定的数值，并且是一个满足(k，V)的概率矩阵。

最低0.47元/天解锁文章