LDA模型学习笔记

本文是关于LDA模型的学习笔记,介绍了LDA的基本原理和Dirichlet分布。LDA是一种基于Dirichlet分布的主题模型,用于文本分析,通过隐性语义分析发现文本的Topic结构。文章详细阐述了Dirichlet分布的概念,并通过一个骰子实验进行直观解释。接着,解释了LDA模型的工作机制,包括文档生成过程和概率图模型。最后,讨论了Gibbs Sampling算法在LDA参数估计中的应用。
摘要由CSDN通过智能技术生成

 1 LDA简述     
 LDA是由Blei,Ng, Jordan 2002年发表于JMLR的概率语言模型,应用到文本建模范畴,就是对文本进行“隐性语义分析”(LSA),目的是要以无指导学习的方法从文本中发现隐含的语义维度-即“Topic”或者“Concept”。隐性语义分析的实质是要利用文本中词项(term)的共现特征来发现文本的Topic结构,这种方法不需要任何关于文本的背景知识。文本的隐性语义表示可以对“一词多义”和“一义多词”的语言现象进行建模,这使得搜索引擎系统得到的搜索结果与用户的query在语义层次上match,而不是仅仅只是在词汇层次上出现交集。
2Dirichlet分布
想要弄清楚LDA就必需先清楚Dirichlet分布。LDA全称为Latent Dirichlet Allocation,是一种基于Dirichlet分布的主题模型。先举一个简单的例子说明Dirichlet分布,假设我们有一个骰子,其有六面,分别为{1,2,3,4,5,6}。现在我们做了10000次投掷的实验,得到的实验结果是六面分别出现了{2000,2000,2000,2000,1000,1000}次,如果用每一面出现的次数与试验总数的比值估计这个面出现的概率,则我们得到六面出现的概率,分别为{0.2,0.2,0.2,0.2,0.1,0.1}。现在,我们还不满足,我们想要做10000次试验,每次试验中我们都投掷骰子10000次。我们想知道,出现这样的情况使得我们认为,骰子六面出现概率为{0.2,0.2,0.2,0.2,0.1,0.1}的概率是多少(说不定下次试验统计得到的概率为{0.1, 0.1, 0.2, 0.2, 0.2, 0.2}这样了)。这样我们就在思考骰子六面出现概率分布这样的分布之上的分布。而这样一个分布就是Dirichlet分布,它是一种分布之上的分布。Dirichlet分布是多项分布的共轭先验分布。Dirichlet分布函数形式如下:
                
其中μ为多维向量,公有K个取值,a也为多维向量,称作Dirichlet分布的参数,然后我们可以把
该式进行归一化,即:

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值