LDA理解以及源码分析(一)

本文介绍了LDA(Latent Dirichlet Allocation)的基础知识,包括共轭、Multinomial分布和Dirichlet分布,并详细阐述了LDA在文本主题建模中的概率图模型、参数推导和Gibbs Sampling的近似推导方法,同时提供了LDA的Python实现概述。
摘要由CSDN通过智能技术生成

LDA系列的讲解分多个博文给出,主要大纲如下:

  • LDA相关的基础知识
    • 什么是共轭
    • multinomial分布
    • Dirichlet分布
  • LDA in text
    • LAD的概率图模型
    • LDA的参数推导
    • 伪代码
  • GibbsLDA++-0.2源码分析
  • Python实现GibbsLDA
  • 参考资料

LDA相关的基础知识

LDA是Blei于2002年发表的概率语言模型,被广泛应用于主题建模中,通过对文本进行潜语义分析,发现文本在主题上的概率。通俗点说,给定一堆文档集合documents,每篇document由多个word表示,则LDA的作用就是找到document在topic上的分布情况,以及word在topic上的分布情况,而这些分布都服从某种概率分布,这样,可以解决一词多义这种情况,比如说apple这个词,在“电子产品”和“水果”这两个主题上都有概率,而且可能差不多。

首先,我们先来了解几个知识。

什么是共轭

以二维情况下为例,二项分布的参数p选取的先验分布是Beta分布时,以p为参数的二项分布用贝叶斯估计后得到的仍是Beta分布,所以二项分布和Beta分布共轭

先验 + 数据的知识 = 后验

① p的先验:f(p)~Beta(p|α,β)
② 数据的知识:例如抛硬币,m次正面,n次负面,m~B(m+n,p)
③ p的后验:f(p|m,n)~Beta(p|α+m,β+n)

Note

  • Dirichlet分布是Multinomial分布的先验分布
  • 文本模型中,document-topic和topic-word都服从Multinomial分布,其先验选取Dirichlet分布

Multinomial分布和Dirichlet分布

Multinomial分布的分布律如下:

  • 7
    点赞
  • 19
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值