LDA模型和gibbs采样介绍

本文介绍了LDA模型的文档生成过程,强调了先验分布的重要性,并详细阐述了为何选择Dirichlet分布作为多项式分布的共轭先验。此外,还概述了Gibbs采样的概念,指出其用于获取已知分布样本点的目标,并利用马尔科夫链的收敛性质进行参数估计。
摘要由CSDN通过智能技术生成
      一.LDA的介绍

       LDA是一种 非监督机器学习 技术,可以用来识别大规模文档集(document collection)或语料库(corpus)中潜藏的主题信息。它采用了词袋(bag of words)的方法,这种方法将每一篇文档视为一个词频向量,从而将文本信息转化为了易于建模的数字信息。但是词袋方法没有考虑词与词之间的顺序,这简化了问题的复杂性,同时也为模型的改进提供了契机。每一篇文档代表了一些主题所构成的一个概率分布,而每一个主题又代表了很多单词所构成的一个概率分布。
       LDA是一种三层的结构,第一层是文档,第二层是主题,第三层是词语


      有点拗口,举个例子。假设有一个文档集D,我们选取其中的一个文档来说D1,而构成这个D1的就是w1、w2、w3、w4、w5,这里的w就是一个一个的词语了。

      有了上述的符号表示,我们可以有如下的产生文档的过程


      1. 对每一篇文档,从主题分布中抽取一个主题;

      2. 从上述被抽到的主题所对应的单词分布中抽取一个单词;

      3.

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值