LDA模型学习笔记

最新推荐文章于 2023-09-28 22:28:18 发布

RaymondTseng

最新推荐文章于 2023-09-28 22:28:18 发布

阅读量725

点赞数 1

分类专栏： nlp 文章标签： nlp

本文链接：https://blog.csdn.net/qq_23026997/article/details/51581922

版权

本文是关于LDA模型的学习笔记，介绍了LDA的基本原理和Dirichlet分布。LDA是一种基于Dirichlet分布的主题模型，用于文本分析，通过隐性语义分析发现文本的Topic结构。文章详细阐述了Dirichlet分布的概念，并通过一个骰子实验进行直观解释。接着，解释了LDA模型的工作机制，包括文档生成过程和概率图模型。最后，讨论了Gibbs Sampling算法在LDA参数估计中的应用。

摘要由CSDN通过智能技术生成

1 LDA简述
LDA是由Blei,Ng, Jordan 2002年发表于JMLR的概率语言模型，应用到文本建模范畴，就是对文本进行“隐性语义分析”（LSA），目的是要以无指导学习的方法从文本中发现隐含的语义维度-即“Topic”或者“Concept”。隐性语义分析的实质是要利用文本中词项(term)的共现特征来发现文本的Topic结构，这种方法不需要任何关于文本的背景知识。文本的隐性语义表示可以对“一词多义”和“一义多词”的语言现象进行建模，这使得搜索引擎系统得到的搜索结果与用户的query在语义层次上match，而不是仅仅只是在词汇层次上出现交集。
2Dirichlet分布
想要弄清楚LDA就必需先清楚Dirichlet分布。LDA全称为Latent Dirichlet Allocation，是一种基于Dirichlet分布的主题模型。先举一个简单的例子说明Dirichlet分布，假设我们有一个骰子，其有六面，分别为{1,2,3,4,5,6}。现在我们做了10000次投掷的实验，得到的实验结果是六面分别出现了{2000,2000,2000,2000,1000,1000}次，如果用每一面出现的次数与试验总数的比值估计这个面出现的概率，则我们得到六面出现的概率，分别为{0.2,0.2,0.2,0.2,0.1,0.1}。现在，我们还不满足，我们想要做10000次试验，每次试验中我们都投掷骰子10000次。我们想知道，出现这样的情况使得我们认为，骰子六面出现概率为{0.2,0.2,0.2,0.2,0.1,0.1}的概率是多少（说不定下次试验统计得到的概率为{0.1, 0.1, 0.2, 0.2, 0.2, 0.2}这样了）。这样我们就在思考骰子六面出现概率分布这样的分布之上的分布。而这样一个分布就是Dirichlet分布，它是一种分布之上的分布。Dirichlet分布是多项分布的共轭先验分布。Dirichlet分布函数形式如下：

其中μ为多维向量，公有K个取值，a也为多维向量，称作Dirichlet分布的参数，然后我们可以把
该式进行归一化，即：