LDA
水母爱美丽
好好学习
展开
-
LDA简介
上个学期到现在陆陆续续研究了一下主题模型(topic model)这个东东。何谓“主题”呢?望文生义就知道是什么意思了,就是诸如一篇文章、一段话、一个句子所表达的中心思想。不过从统计模型的角度来说, 我们是用一个特定的词频分布来刻画主题的,并认为一篇文章、一段话、一个句子是从一个概率模型中生成的。 D. M. Blei在2003年(准确地说应该是2002年)提出的LDA(Latent D转载 2013-10-12 08:54:09 · 1383 阅读 · 0 评论 -
The Dirichlet Distribution 狄利克雷分布
Dirichlet分布可以看做是分布之上的分布。如何理解这句话,我们可以先举个例子:假设我们有一个骰子,其有六面,分别为{1,2,3,4,5,6}。现在我们做了10000次投掷的实验,得到的实验结果是六面分别出现了{2000,2000,2000,2000,1000,1000}次,如果用每一面出现的次数与试验总数的比值估计这个面出现的概率,则我们得到六面出现的概率,分别为{0.2,0.2,0.2,0转载 2013-10-12 09:00:07 · 4191 阅读 · 0 评论 -
概率主题模型简介 Introduction to Probabilistic Topic Models
此文为David M. Blei所写的《Introduction to Probabilistic Topic Models》的译文,供大家参考。 摘要:概率主题模型是一系列旨在发现隐藏在大规模文档中的主题结构的算法。本文首先回顾了这一领域的主要思想,接着调研了当前的研究水平,最后展望某些有所希望的方向。从最简单的主题模型——潜在狄立克雷分配(Latent Dirichlet Alloc转载 2013-10-12 09:29:55 · 940 阅读 · 0 评论 -
主题模型的分类和设计原则
topic model的介绍性文章已经很多,在此仅做粗略介绍,本文假设读者已经较为熟悉Topic Medel。 Topic Model (LDA)认为一个离散数据集合(如文档集合,图片集合,为行文方便,本文统统以文档集合作为描述对象,其他的数据集合只需换掉对应的术语即可)是由隐含在数据集合背后的topic set 生成的,这个set中的每一个topic都是词的概率分布。对于文档中的每转载 2013-10-14 08:49:26 · 2928 阅读 · 0 评论