机器学习 之 LDA主题模型

本文深入探讨LDA(Latent Dirichlet Allocation),介绍其作为主题模型的概念,涉及二项分布、多项式分布、β分布、狄利克雷分布等概率分布,并比较pLSA与LDA的差异,揭示贝叶斯框架在主题建模中的应用。
摘要由CSDN通过智能技术生成

今天终于开始啃LDA了,同时恶补一下概率分布方面的东西。

先放上来大神学习LDA的五个步骤:
1. 一个函数:gamma函数
2. 四个分布:二项分布、多项分布、beta分布、Dirichlet分布
3. 一个概念和一个理念:共轭先验和贝叶斯框架
4. 两个模型:pLSA、LDA
5. 一个采样:Gibbs采样

LDA(Latent Dirichlet Allocation)

  • 全称是隐含狄利克雷分布
  • 一种主题模型
  • 将文档集中每篇文档的主题以概率的形式给出
  • 可以用于主题聚类或分本分类
  • 一种典型的词袋模型(一个文档有很多词,词是无序的)
  • 一篇文档可以含有很多主题
  • 文档的每个词都由一个主题生成

    在LDA中,一篇文档是这样生成的:
    LDA生成文档

四种概率分布

下面就分别介绍一下二项分布、多项式分布、β分布和狄利克雷分布。

二项分布到多项式分布

二项分布是伯努利分布的扩展版本,多项式分布则又是二项分布的扩展版本。伯努利分布是一个离散型的随机分布,做一次实验,实验的结果只有两个,而二项分布则将实验次数扩展到了多个,而多项式分布则将实验的结果也扩展到了

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值