概率主题模型
文章平均质量分 94
LDA模型Gibbs抽样介绍;稀疏主题模型介绍;DP过程、中餐馆过程、Stick-breaking构造;Dirichlet过程混合模型(DPMM)的介绍、公式推理、Gibbs抽样程序;HDP(层次Dirichlet过程)的公式推理、核心程序;以及其他各种主题模型的分析、公式推导
HFUT_qianyang
刘老师指示:学如逆水行舟,不进则退;心似平原跑马,易放难收。不能放松,继续!
展开
-
如何直观的看出主题模型学习结果的好坏
本文作者:合肥工业大学 电子商务研究所 钱洋 email:1563178220@qq.com 。内容可能有不到之处,欢迎交流。未经本人允许禁止转载。文章目录主题模型的评估指标直观的展示如何构建类似的矩阵参考论文主题模型的评估指标在主题模型中,常见的评估指标包括Perplexity(即困惑度)以及Coherence Score、Topic Consensus等。而在计算Coherence Score有几种方案:其一是基于点互信息的,如下所示:使用这种方式,需要第三方数据来评估,如这里提及的Wi原创 2020-07-07 09:08:33 · 1698 阅读 · 1 评论 -
利用LDA主题模型的生成过程仿真数据
仿真代码因为,最近论文,需要基于图模型的过程,仿真数据。因此,找了一些已有的代码和论文。以下,是利用LDA的生成过程仿真数据的过程,这个代码是使用R语言编写的,代码来源于:https://www.r-bloggers.com/topic-modeling-1-simulated-lda-corpus/(https://gist.github.com/robbymeals/3985469)。### Basic LDA Topic Model Simulation ###### Generate Simu原创 2020-07-03 10:16:38 · 1329 阅读 · 0 评论 -
LDA的Gibbs抽样详细推理与理解
LDA图模型表示LDA所要求得目标分布联合概率分布求解参考文献本文作者:合肥工业大学 管理学院 钱洋 email:1563178220@qq.com 欢迎交流。LDA图模型表示LDA所要求得目标分布关于LDA的理解,可以去看《LDA数学八卦》以及Heinrich G. Parameter estimation for text analysis[J]. University of Leip原创 2016-12-11 21:19:33 · 5375 阅读 · 1 评论 -
LFDMM源码剖析(融入词向量的概率图模型)
本文作者:合肥工业大学 管理学院 钱洋 email:1563178220@qq.com 内容可能有不到之处,欢迎交流。 未经本人允许禁止转载。论文来源Nguyen D Q, Billingsley R, Du L, et al. Improving topic models with latent feature word representations[J]. Transacti...原创 2018-03-24 10:40:58 · 1689 阅读 · 1 评论 -
Pseudo-document-based Topic Model(基于伪文档的主题模型)的理解以及源码解读
论文来源Zuo Y, Wu J, Zhang H, et al. Topic modeling of short texts: A pseudo-document view[C]//Proceedings of the 22nd ACM SIGKDD international conference on knowledge discovery and data mining. ACM, 2016:原创 2018-04-10 10:49:38 · 1665 阅读 · 1 评论 -
主题模型聚类匹配2018TKDE阅读笔记(Topic Models for Unsupervised Cluster Matching)
论文来源 Iwata T, Hirao T, Ueda N. Topic Models for Unsupervised Cluster Matching[J]. IEEE Transactions on Knowledge and Data Engineering, 2018, 30(4): 786-795.作者是日本人Iwata T,也是个机器学习大牛,每年都有一系列的文章出来,还是很厉害的。原创 2018-04-21 17:16:37 · 2131 阅读 · 1 评论 -
极大似然估计求解多项式分布参数
原因今天晚上,老师在看LDA数学八卦的时候,问我一个问题,如下图所示: 这个多项式分布的参数,采用极大估计是怎么求的呢?当时想了想还真不知道,于是在网上找了资料,学习了一下,特此记录。公式推导很多情况下,假定一个变量XX有kk个状态,其中k>2k>2,每个状态假定的可能性为p1,p2,⋯,pkp_{1},p_{2},\cdots ,p_{k},且∑ki=1pi=1\sum _{i=1}原创 2018-05-07 22:16:46 · 13185 阅读 · 6 评论 -
LSTM模型结合LDA对序列性文本建模 阅读笔记 2017 ICML
本文作者:合肥工业大学 管理学院 钱洋 email:1563178220@qq.com 内容可能有不到之处,欢迎交流。未经本人允许禁止转载。文章来源 Zaheer M, Ahmed A, Smola A J. Latent LSTM Allocation: Joint Clustering and Non-Linear Dynamic Modeling of Sequence Dat...原创 2018-06-04 10:40:26 · 3740 阅读 · 0 评论 -
2018 A Sparse Topic Model for Extracting Aspect-Specific Summaries from Online Reviews 稀疏主题模型学习笔记
论文来源文章介绍模型及推理关于源码论文来源Rakesh V, Ding W, Ahuja A, et al. A Sparse Topic Model for Extracting Aspect-Specific Summaries from Online Reviews[C]//Proceedings of the 2018 World Wide Web Confere...原创 2018-07-09 17:22:56 · 1117 阅读 · 0 评论 -
Topic model相关文章总结
基础类主题模型Hofmann T. Probabilistic latent semantic indexing[C]//Proceedings of the 22nd annual international ACM SIGIR conference on Research and development in information retrieval. ACM, 1999: 50-57.Ble原创 2017-11-07 10:58:19 · 3063 阅读 · 0 评论 -
蒙特卡罗方法采样算法
蒙特卡罗方法采样算法 蒙特卡罗方法(Monte Carlo Simulation)是一种随机模拟(或者统计模拟)方法。 给定统计样本集,如何估计产生这个样本集的随机变量概率密度函数,是我们比较熟悉的概率密度估计问题。 求解概率密度估计问题的常用方法是最大似然估计、最大后验估计等。但是,我们思考概率密度估计问题的逆问题:给定一个概率分布p(x),如何让计算机生成满足这个概率分布的样本。 这个问转载 2018-03-21 10:00:58 · 48230 阅读 · 5 评论 -
轮盘赌算法的java实现算例
轮盘赌介绍 算法实现package test;public class Test { public static double[] multiPros; public static void main(String[] args) { multiPros = new double[4]; multiPros[0] = 0.14;原创 2018-03-21 10:17:11 · 5102 阅读 · 0 评论 -
Dirichlet Multinomial Mixture Model做短文本聚类
论文来源Yin J, Wang J. A dirichlet multinomial mixture model-based approach for short text clustering[C]//Proceedings of the 20th ACM SIGKDD international conference on Knowledge discovery and data mining.原创 2018-03-03 11:31:16 · 3900 阅读 · 2 评论 -
基于狄利克雷-多项式分布做文档聚类代码(dirichlet multinomial mixture model)
论文来源Yin J, Wang J. A dirichlet multinomial mixture model-based approach for short text clustering[C]//Proceedings of the 20th ACM SIGKDD international conference on Knowledge discovery and data mining.原创 2018-03-05 19:35:04 · 3923 阅读 · 0 评论 -
主题模型结合词向量模型(Improving Topic Models with Latent Feature Word Representations)
本文作者:合肥工业大学 管理学院 钱洋 email:1563178220@qq.com 内容可能有不到之处,欢迎交流。 未经本人允许禁止转载。论文来源Nguyen D Q, Billingsley R, Du L, et al. Improving topic models with latent feature word representations[J]. Transactions of原创 2018-03-07 20:17:50 · 4115 阅读 · 1 评论 -
Gaussian LDA(高斯LDA)简介
论文来源Das R, Zaheer M, Dyer C. Gaussian lda for topic models with word embeddings[C]//Proceedings of the 53rd Annual Meeting of the Association for Computational Linguistics and the 7th International Joi原创 2018-03-12 16:21:12 · 3608 阅读 · 0 评论 -
Dirichlet Process和Hierarchical Dirichlet Process的理解(PPT)
本文作者:合肥工业大学 管理学院 钱洋 email:1563178220@qq.com 内容可能有不到之处,欢迎交流。 未经本人允许禁止转载。原创 2018-03-23 09:59:48 · 4759 阅读 · 1 评论 -
Indian Buffet Process(印度自助餐过程)介绍
简介无监督学习的目的是从观测数据中,发掘潜在的结构(latent structure)。无监督学习算法的一个关键问题是如何确定潜在结构的数目,如聚类中的类的数目,变量的数目等。以聚类为例,如果能够基于数据之间的内在关系,自动学习类的数目,要比通过经验设置一个数目要好的多。相比参数化的贝叶斯模型,非参贝叶斯有其独特的地方,也是近些年来,机器学习比较火的一种方法,如DPMM(Dirichlet proc原创 2017-11-14 17:30:43 · 6969 阅读 · 0 评论 -
对比关系生成模型(Comparative Relation Generative Model)
文章来源Tkachenko M, Lauw H W. Comparative Relation Generative Model[J]. IEEE Transactions on Knowledge and Data Engineering, 2017, 29(4): 771-783. 2017年TKDE上的文章,以下仅是个人理解,仅供参考,详细内容请学习原文。个人想法从评论中找原创 2018-01-26 16:50:30 · 974 阅读 · 0 评论 -
Dirichlet Distribution(狄利克雷分布)与Dirichlet Process(狄利克雷过程)
请看,我师兄的写的文章http://www.datalearner.com/blog/1051459673766843转载 2016-08-27 14:14:36 · 5752 阅读 · 3 评论 -
Dirichlet过程混合模型(DPMM)的Gibbs抽样程序
自己打算写个java版本的,这里把别人写的python版本的放在这里,留作参考: 地址:https://github.com/lee813/pydpmmdistribution.py文件from __future__ import divisionimport numpy as np#fix var = 1 standard normal distribution#with prior mu原创 2017-08-13 12:26:19 · 4184 阅读 · 10 评论 -
DPMM的理解、公式推导及抽样
DPMM学习的基础及相关论文学习DPMM(Dirichlet 过程混合模型)之前,首先要去理解DP过程及其三种构造方式,(1)Stick-breaking 构造,(2)Polya urn scheme 构造,(3)Chinese restaurant process 构造。这三种构造是学习DPMM及HDP,还有其他非参模型的基础工作。关于Stick-breaking 构造可以参考我的一篇博客:htt原创 2017-09-09 09:11:37 · 9314 阅读 · 11 评论 -
Sentence-LDA的介绍及程序
Sentence-LDA的相关论文:Jo Y, Oh A H. Aspect and sentiment unification model for online review analysis[C]//Proceedings of the fourth ACM international conference on Web search and data mining. ACM, 2011: 81原创 2017-08-16 20:36:40 · 4713 阅读 · 1 评论 -
Dirichlet Process and Stick-Breaking(DP的Stick-breaking 构造)
目录Dirichlet Process简介Stick-Breaking构造Dirichlet Process简介DP是一种非参数贝叶斯模型, 其优点是参数的个数和性质灵活可变, 可通过模型和数据来计算数目, 近年来它已成为机器学习和自然语言处理研究领域中的一个研究热点。举个例子,我们在使用聚类方法k-means时,需要指定k的值(聚成k个簇);在使用LDA时需要指定主题的数目k,但通过DP过程这种原创 2017-03-14 13:39:49 · 6443 阅读 · 0 评论 -
Targeted Topic Modeling for Focused Analysis(TTM的理解)
问题描述问题定义最简单的实现方法作者提出的模型代码本文作者:合肥工业大学 管理学院 钱洋 email:1563178220@qq.com 内容可能有不到之处,欢迎交流。 未经本人,允许禁止转载。本文给原文作者发了几封邮件,询问一些程序及推理方面的疑问,原文作者都悉心回答了,再次表示衷心感谢。问题描述这篇文章发表在16年ACM会议上,主要是对主题模型的改进。从文章的题目可以看出,该模型可原创 2017-04-19 21:48:23 · 1680 阅读 · 0 评论 -
sparseTM的公式理解
本篇的论文来自:Wang C, Blei D M. Decoupling sparsity and smoothness in the discrete hierarchical dirichlet process[C]//Advances in neural information processing systems. 2009: 1982-1989.本博客作者:合肥工业大学 管理学院 钱洋 e原创 2017-05-08 22:20:31 · 856 阅读 · 2 评论 -
beta分布的采样或抽样(java程序)
关于beta分布的介绍,请看我的另外一篇博客:http://blog.csdn.net/qy20115549/article/details/53307535本文将使用math3提供的工具包,对beta分布进行采样。如下程序是对alpha=81,beta=219的beta分布函数,进行抽样,共采样10000次。package function;import org.apache.commons.ma原创 2017-05-12 15:42:20 · 6363 阅读 · 3 评论 -
二项分布的采样或抽样(java实现)
如下程序为n=100,p=0.9的二项分布采样,共采样10000次package function;import org.apache.commons.math3.distribution.BetaDistribution;import org.apache.commons.math3.distribution.BinomialDistribution;import org.apache.com原创 2017-05-12 16:04:01 · 4986 阅读 · 3 评论 -
beta分布及共轭Bernoulli分布-先验、后验、预测分布
beta分布介绍如下为beta分布的形式,其分布有两个参数, α \alpha和β\beta。其分布形式如下 其中, Γ(x)\Gamma(x) 是Gamma函数。其中beta分布定义域为【0,1】∫10p(p|α,β)dp=1\int_0^1 {p(p|\alpha,\beta)} \,{\rm d}p=1可以看出 ∫10pα−1(1−p)β−1dx=B(α,β)\int_0^1原创 2016-11-23 16:53:56 · 15650 阅读 · 2 评论 -
多元正太分布条件密度
原文来自师兄的博文:http://blog.csdn.net/wjj5881005/article/details/53320403多元正态分布多元正态分布的条件密度多元正态分布多元正态分布的密度函数如下 : fx(x1,...xn)=1(2π)k√|Σ|exp(−12(x−μ)TΣ−1(x−μ))f_{x}(x_{1},...x_{n})=\frac{1}{\sqrt{(2\pi)^{k}}转载 2016-12-09 09:12:42 · 1883 阅读 · 0 评论 -
Author Topic Model[ATM理解及公式推导]
参考论文Modeling documents with topicsModeling authors with wordsThe author-topic modelGibbs sampling algorithms详细经典LDA模型目标分布及参数Author Model目标分布及参数Author-topic model目标分布及参数本文作者:合肥工业大学 管理学院 钱洋 email:原创 2017-01-13 11:34:13 · 4282 阅读 · 6 评论 -
Gamma函数(伽玛函数)的一阶导数、二阶导数公式推导及java程序
本文作者:合肥工业大学 管理学院 钱洋 email:1563178220@qq.com 内容可能有不到之处,欢迎交流。 未经本人,允许禁止转载。由于最近本人在搞算法时,如下图所示,遇到Gamma求一阶导数及二阶导数,所以找了相关资料,学习了一下。打公式实在有些费劲,所以这里直接将手稿贴出来,供有需要的人学习。原创 2017-05-10 18:48:08 · 36620 阅读 · 3 评论 -
Correlated Topic model 的Gibbs sampling
原文来自师兄的博客:http://blog.csdn.net/wjj5881005/article/details/53320577关于经典LDA的thetaCorrelated Topic Model中的thetaCTM的Gibbs sampling1 CTM中关于主题zz的采样2 CTM中关于文档主题分布参数eta的后验分布3 CTM中关于文档主题分布参数eta的Gibbs sampl转载 2016-12-09 09:17:42 · 2503 阅读 · 0 评论 -
关于多元正态分布的条件概率密度
原文来自师兄的博客:http://blog.csdn.net/wjj5881005/article/details/53320403多元正态分布多元正态分布的条件密度多元正态分布多元正态分布的密度函数如下 : fx(x1,...xn)=1(2π)k√|Σ|1/2exp(−12(x−μ)TΣ−1(x−μ))f_{x}(x_{1},...x_{n})=\frac{1}{\sqrt{(2\pi)^{转载 2017-01-10 21:16:23 · 12261 阅读 · 0 评论 -
多元正态分布的后验采样(包含程序)
原文来自师兄的博客:http://blog.csdn.net/wjj5881005/article/details/53535613均值和方差未知的多元正态分布的后验Multivariate normal with unknown mean and variance从后验分布中采样均值mu和方差Sigma1. 均值和方差未知的多元正态分布的后验(Multivariate normal with转载 2017-01-10 21:22:45 · 6262 阅读 · 0 评论 -
HMC(Hamiltonian Monte Carlo抽样算法详细介绍)
Hamiltonian Monte Carlo简介Hamiltonian dynamics的物理含义Simulating Hamiltonian dynamics the Leap Frog MethodExample 1 Simulating Hamiltonian dynamics of an harmonic oscillatorHamiltonian dynamics and th原创 2017-01-15 13:46:50 · 22284 阅读 · 1 评论