LDA论文学习笔记

本文主要探讨了David M. Blei的LDA论文,重点介绍了LDA如何处理词、文档和语料,以及其生成概率模型的过程。LDA假设文档由若干潜在主题随机组合而成,每个主题又对词有特定分布。处理流程包括根据Poisson分布选择词数,Dirichlet分布选择主题,再在文档中依据主题选择词。论文还提到了一些基础模型的假设,例如Dirichlet分布的固定维度、词的概率矩阵等。
摘要由CSDN通过智能技术生成

以下内容节选自David M. Blei的论文《Latent Dirichlet Allocation》主要是选自LDA的处理流程部分,可能理解上有很大的偏差,或者表达上有问题,如有误导还想大家多多指教
 LDA原始论文链接为:http://www.jmlr.org/papers/volume3/blei03a/blei03a.pdf



LDA中关于词,文档,语料的定义:
1.  词(word)是基本的离散数据单元,对词的展示是使用向量,如果词典里面有对应的某个词,则为1,否则为0。
2.  文档是N个词的序列,和上面的词有直接的关系,用w表示。
3.  语料是M个文档的集合,用D表示。
LDA的目标是找一个概率模型的语料集合,不仅将高概率的词分配给语料的成员,还将高概率的词分配给相似的文档。LDA是语料的生成概率模型,他的基本思想是文档是一些潜在的主题的随机组合,并且主题在词上也满足一定的分布。 
对于语料D中的每一个文档w,LDA按如下的处理流程:
1.根据Poisson分布选择词N 
2.根据Dirichlet分布选择主题cita 
3.对每个文档w(下标n)中的词
(a)  从满足多项式分页的cita中选择一个主题Z 。
(b)  在多项式的条件概率分布和主题的情况下选择文档w(下标n)的词。
 
以上的基本模型有以下的假设:
1.      Dirichlet分布的维度k是可知并且不变的
2.      词的概率是一个固定的数值,并且是一个满足(k,V)的概率矩阵。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值