Spark:聚类算法之LDA主题模型算法

http://blog.csdn.net/pipisorry/article/details/52912179Spark上实现LDA原理LDA主题模型算法[主题模型TopicModel:隐含狄利克雷分布LDA ]Spark实现LDA的GraphX基础在Spark 1.3中,MLlib现在支持最成功的主题模型之一,隐含狄利克雷分布(LDA)。LDA也是基于Gra...
阅读(3999) 评论(2)

参数估计:文本分析的参数估计方法

http://blog.csdn.net/pipisorry/article/details/51482120文本分析的三类参数估计方法-最大似然估计MLE、最大后验概率估计MAP及贝叶斯估计。参数估计参数估计中,我们会遇到两个主要问题:(1)如何去估计参数的value。(2)估计出参数的value之后,如何去计算新的observation的概率,即进行回归分析和预测。首先定义一些符号:数据集X中...
阅读(11519) 评论(2)

随机采样和随机模拟:吉布斯采样Gibbs Sampling

http://blog.csdn.net/pipisorry/article/details/51373090 马氏链收敛定理 马氏链定理: 如果一个非周期马氏链具有转移概率矩阵P,且它的任何两个状态是连通的,那么limn→∞Pnij 存在且与i无关,记limn→∞Pnij=π(j), 我们有 limn→∞Pn=⎡⎣⎢⎢⎢⎢⎢π(1)π(1)⋯π(1)⋯π(2)π(2)⋯...
阅读(19497) 评论(2)

马尔科夫模型

http://blog.csdn.net/pipisorry/article/details/46618991 马尔科夫过程 马尔科夫过程可以看做是一个自动机,以一定的概率在各个状态之间跳转。 考虑一个系统,在每个时刻都可能处于N个状态中的一个,N个状态集合是 {S1,S2,S3,...SN}。我们现在用q1,q2,q3,…qn来表示系统在t=1,2,3,…n时刻下的状态。在t=1时,系...
阅读(4190) 评论(0)

主题模型TopicModel:通过gensim实现LDA

http://blog.csdn.net/pipisorry/article/details/46447561使用python gensim轻松实现lda模型。gensim简介Gensim是一个相当专业的主题模型Python工具包。在文本处理中,比如商品评论挖掘,有时需要了解每个评论分别和商品的描述之间的相似度,以此衡量评论的客观性。评论和商品描述的相似度越高,说明评论的用语比较官方,不带太多感情...
阅读(4447) 评论(2)

主题模型TopicModel:LDA编程实现

http://blog.csdn.net/pipisorry/article/details/45771045 LDA的python实现 LDA的c/c++实现...
阅读(5417) 评论(0)

主题模型TopicModel:主题模型LDA的应用

http://blog.csdn.net/pipisorry/article/details/45665779 应用于推荐系统 在使用LDA(Latent Dirichlet Allocation)计算物品的内容相似度时,我们可以先计算出物品在话题上的分布,然后利用两个物品的话题分布计算物品的相似度。比如,如果两个物品的话题分布相似,则认为两个物品具有较高的相似度,反之则认为两个物品的相似...
阅读(4851) 评论(0)

主题模型TopicModel:主题模型可视化

http://blog.csdn.net/pipisorry Browse LDA Topic Models This package allows you to create a set of HTML files to browse a topic model.It creates a word cloud and time-graph per topic, and annotat...
阅读(3084) 评论(0)

主题模型TopicModel:LDA的缺陷和改进

http://blog.csdn.net/pipisorry/article/details/45307369 LDA的缺陷和改进 1. 短文本与LDA ICML论文有理论分析,文档太短确实不利于训练LDA,但平均长度是10这个数量级应该是可以的,如peacock基于query 训练模型。 有一些经验技巧加工数据,譬如把同一session 的查询拼接,同一个人的twitter...
阅读(4134) 评论(0)

knowledge_based topic model - 基于知识的主题模型概述

http://blog.csdn.net/pipisorry/article/details/44040701 LDA (Bleiet al., 2003) 术语 Mustlink states that two words should belong to the same topic Cannot-link states that two words sho...
阅读(1476) 评论(2)

knowledge_based topic model - AMC

http://blog.csdn.net/pipisorry/article/details/43271429 ABSTRACT         Topic modeling has been widely used to mine topics from documents. However,a key weakness of topic modeling is that it ...
阅读(1562) 评论(1)

主题模型TopicModel:LDA中的数学模型

了解LDA需要明白如下数学原理: 一个函数:gamma函数 四个分布:二项分布、多项分布、beta分布、Dirichlet分布 一个概念和一个理念:共轭先验和贝叶斯框架 两个模型:pLSA、LDA(文档-主题,主题-词语) 一个采样:Gibbs采样...
阅读(3874) 评论(2)

主题模型TopicModel:隐含狄利克雷分布LDA

http://blog.csdn.net/pipisorry/article/details/42649657主题模型LDA简介隐含狄利克雷分布简称LDA(Latent Dirichlet allocation),是一种主题模型,它可以将文档集中每篇文档的主题按照概率分布的形式给出。同时它是一种无监督学习算法,在训练时不需要手工标注的训练集,需要的仅仅是文档集以及指定主题的数量k即可。此外LDA的...
阅读(12624) 评论(4)

主题模型TopicModel:PLSA模型及PLSA的EM推导

基于概率统计的PLSA模型,并且用EM算法学习模型参数。PLSA的概率图模型如下 其中D代表文档,Z代表隐含类别或者主题,W为观察到的单词,表示单词出现在文档的概率,表示文档中出现主题下的单词的概率,给定主题出现单词的概率。并且每个主题在所有词项上服从Multinomial 分布,每个文档在所有主题上服从Multinomial 分布。整个文档的生成过程是这样的: (1) 以的概率选中文...
阅读(2871) 评论(0)

主题模型TopicModel:Unigram、LSA、PLSA模型

http://blog.csdn.net/pipisorry/article/details/42560693主题模型历史Papadimitriou、Raghavan、Tamaki和Vempala在1998年发表的一篇论文中提出了潜在语义索引。1999年,Thomas Hofmann又在此基础上,提出了概率性潜在语义索引(Probabilistic Latent Semantic Indexing...
阅读(7122) 评论(2)

主题模型TopicModel:LSA(隐性语义分析)模型和其实现的早期方法SVD

LSA and SVD LSA(隐性语义分析)的目的是要从文本中发现隐含的语义维度-即“Topic”或者“Concept”。我们知道,在文档的空间向量模型(VSM)中,文档被表示成由特征词出现概率组成的多维向量,这种方法的好处是可以将query和文档转化成同一空间下的向量计算相似度,可以对不同词项赋予不同的权重,在文本检索、分类、聚类问题中都得到了广泛应用,在基于贝叶斯算法及KNN算法的ne...
阅读(5815) 评论(0)

EM算法原理详解

http://blog.csdn.net/pipisorry/article/details/42550815EM算法有很多的应用,最广泛的就是GMM混合高斯模型、聚类、HMM、基于概率的PLSA模型等等。本文详细讲述EM算法的由来、EM算法的实现思路、EM算法解决PLSA和LDA的方法。概述、EM是一种解决存在隐含变量优化问题的有效方法。EM的意思是“Expectation Maximizati...
阅读(7039) 评论(4)

主题模型TopicModel:LDA主题模型的评估

LDA主题模型好坏的评估,判断改进的参数或者算法的建模能力。 Blei先生在论文《Latent Dirichlet Allocation》实验中用的是Perplexity值作为评判标准。 一、Perplexity定义 http://en.wikipedia.org/wiki/Perplexity perplexity是一种信息理论的测量方法,b的perplexity值定义为基于b的...
阅读(5253) 评论(0)

主题模型TopicModel:LDA参数推导、选择及注意事项

http://blog.csdn.net/pipisorry/article/details/42129099LDA参数LDA求参推导中国科学技术信息研究所徐硕老师的PDF,对LDA,TOT,AT模型如何使用gibbs sampling求参进行了细致推导,并依据求参结果给出伪代码。地址:http://blog.sciencenet.cn/blog-611051-582492.html参数alpha...
阅读(12245) 评论(1)
    个人资料
    • 访问:2213153次
    • 积分:23281
    • 等级:
    • 排名:第285名
    • 原创:530篇
    • 转载:30篇
    • 译文:5篇
    • 评论:233条
    Welcome to 皮皮blog~

    博客专栏
    最新评论