主题模型综述

22 篇文章 1 订阅

基础入门

  • 中英文博客以及基础文章

  1. Topic model 介绍 简介:简要了解主题模型是什么意思,最基本的概念https://en.wikipedia.org/wiki/Topic_model

  2. 概率主题模型简介 Introduction to Probabilistic Topic Models 简介:一步让你知道什么是lda,翻译了提出主题模型大神对概率主题模型的描述。中文文档更适合入门。David M. Blei所写的《Introduction to Probabilistic Topic Models》的译文http://www.cnblogs.com/siegfang/archive/2013/01/30/2882391.html

  3. 主题模型-LDA浅析:简述了LDA的基础概念,描述了模型的生成过程,帮助你进一步了解主题模型~! http://blog.csdn.net/huagong_adu/article/details/7937616

  4. Latent dirichlet allocation:开山之作LDA原论文。了解了主题模型的基础知识之后可以开始看原论文了。原文看不太懂也不要着急,可以先看个大概~ 作者:David M. Blei, Andrew Y. Ng, and Michael I. Jordan 顺便介绍一下Blei大神:David M. Blei Professor in the Statistics and Computer Science departments at Columbia University. Prior to fall 2014 he was an Associate Professor in the Department of Computer Science at Princeton University. His work is primarily in machine learninghttp://www.jmlr.org/papers/volume3/blei03a/blei03a.pdf

  5. Rickjin 腾讯的rickjin大神:LDA数学八卦 简介:传说中的“上帝掷骰子”的来源之处。这篇文章是一个连载的科普性博客,作者是rickjin,文章分为7个章节,主要5个章节讲得是Gamma函数、Beta/Dirichlet函数、MCMC和Gibbs采样、文本建模、LDA文本建模,对于想要了解和LDA的同学来说,是一篇很好的入门教程,建议结合Blei的开山之作一起看。http://download.csdn.net/download/happyer88/8791493

  6. LDA漫游指南 作者:马晨 清华大学在读博士,毕业于北京邮电大学硕士,曾任新浪网公司自然语言处理算法工程师。 简介:完全明白主题模型的必备之路:一份从数学基础开始讲的教程,与LDA数学八卦可以互为补充。https://yuedu.baidu.com/ebook/d0b441a8ccbff121dd36839a.html###

  7. 《Supervised topic models》: 有监督主题模型,提出SLDA,实现有监督学习。 作者:David M. Blei https://research.googleblog.com/2016/09/show-and-tell-image-captioning-open.html

  8. 《Fast collapsed gibbs sampling for latent dirichlet allocation》:快速推理算法,在参数推理上提出更容易理解的方法。更加实用。事实上,由于方法相对更好理解,现在更多的主题模型都采用这种方法求解。 作者:I Porteous,D Newman,A Ihler A Asuncion P Smythhttps://www.researchgate.net/publication/221653277_Fast_collapsed_Gibbs_sampling_for_latent_Dirichlet_allocation

  9. LDA-math-MCMC 和 Gibbs Sampling简介:rickjin大神对马尔科夫链蒙特卡洛采样和吉布斯采样的描述,讲的非常清晰明白。可以帮助大家更好的理解采样。 https://cosx.org/2013/01/lda-math-mcmc-and-gibbs-sampling/

  10. *用变分推理求解LDA模型的参数 * 简介:LDA原文中采用的变分算法求解,想要了解变分算法可以看一下这篇文章。 作者:斯玮Fantastic https://zhuanlan.zhihu.com/p/28794694

  11. 早期文本模型的简介https://zhuanlan.zhihu.com/p/28777266

  12. Gensim简介、LDA编程实现、LDA主题提取效果图展 示https://zhuanlan.zhihu.com/p/28830480

  13. 图模型学习http://blog.csdn.net/pipisorry/article/category/6241251

  14. Gaussian LDA: Gaussian LDA简介, 介绍主题模型和词向量结合的一些工作, 比较有意思,建议看一下 [http://blog.csdn.net/u011414416/article/details/51188483]

进阶论文

  • 实践以及一些变形方法

  1. 如何计算两个文档的相似度(一)简介:52nlp上的文章,从最简单的tf-idf到SVD和LSI再到) LDA,可以说是形成了一条逻辑线,一步一步说明算法的发展过程,同时也方便对比各种算法的优缺点。另外,从实践的角度出发。迅速上手!用到了python里的gensim,这是一个非常好用的库,实践必不可少。http://www.52nlp.cn/%E5%A6%82%E4%BD%95%E8%AE%A1%E7%AE%97%E4%B8%A4%E4%B8%AA%E6%96%87%E6%A1%A3%E7%9A%84%E7%9B%B8%E4%BC%BC%E5%BA%A6%E4%B8%80

  2. 如何计算两个文档的相似度(二)从gensim最基本的安装讲起,然后举一个非常简单的例子用以说明如何使用gensim,可以跟着教程做一下实验,肯定会有更好地体会http://www.52nlp.cn/%E5%A6%82%E4%BD%95%E8%AE%A1%E7%AE%97%E4%B8%A4%E4%B8%AA%E6%96%87%E6%A1%A3%E7%9A%84%E7%9B%B8%E4%BC%BC%E5%BA%A6%E4%BA%8C

  3. 文章说了很多实验的细节,讲了如何数据预处理,解决了很多理论类文章中不会提到的技术细节。NTLK是著名的Python自然语言处理工具包,在这也讲了怎么去用这些工具。http://www.52nlp.cn/%E5%A6%82%E4%BD%95%E8%AE%A1%E7%AE%97%E4%B8%A4%E4%B8%AA%E6%96%87%E6%A1%A3%E7%9A%84%E7%9B%B8%E4%BC%BC%E5%BA%A6%E4%B8%89

  4. A correlated topic model of scienceBlei的大作,引入了主题之间的关联。考虑到了潜在主题的子集将是高度相关的。 http://www.cs.columbia.edu/~blei/papers/BleiLafferty2007.pdf(ppt) http://www-users.cs.umn.edu/~banerjee/Teaching/Fall07/talks/Muhammed_slides.pdf

  5. Topic Models over Text Streams: A Study of Batch and Online Unsupervised Learning.文本流推理 作者:A Banerjee , S Basu http://www-users.cs.umn.edu/~banerjee/papers/07/sdm-topics-long.pdf

  6. Topical n-grams: Phrase and topic discovery, with an application to information retrieval在LDA基础上考虑了词与词之间的顺序 作者:X Wang , A Mccallum , X Weihttp://www.cs.cmu.edu/~xuerui/papers/ngram_tr.pdf

  7. Hierarchical Dirichlet processes.基于DirichletProcess的变形,即HDP模型,可以自动的学习出主题的数目。该方法:1、在一定程度之上解决了主题模型中自动确定主题数目这个问题,2、代价是必须小心的设定、调整参数的设置,3、实际中运行复杂度更高,代码复杂难以维护。 所以在实际中,往往取一个折中,看看自动确定主题数目这个问题对于整个应用的需求到底有多严格,如果经验设定就可以满足的话,就不用采用基于非参数贝叶斯的方法了,但是如果为了引入一些先验只是或者结构化信息,往往非参数是优先选择,例如树状层次的主题模型和有向无环图的主题模型 作者:Yee Whye Michael I. Jordan J Beal David M. Bleihttps://people.eecs.berkeley.edu/~jordan/papers/hdp.pdf

  8. *Modeling online reviews with multi-grain topic models * 从用户评论数据中进行无监督主题抽取,考虑了一个多级背景主题模型:词~句子~段落~文档,解决了传统LDA模型提出的主题往往对应品牌而不是可以ratable的主题。 作者:I Titov , R Mcdonaldhttp://delivery.acm.org/10.1145/1370000/1367513/p111-titov.pdf

  9. A joint model of text and aspect ratings for sentiment summarization.本文将一些具有结构化信息的特征融入到主题模型中,具体来说,我们同时关联两个生成过程,一个就是文档中词的生成,另一个就是这些结构化特征的生成。 作者:Titov , Ivan , McDonald , Ryanhttp://www.aclweb.org/anthology/P08-1036

  10. Comparing twitter and traditional media using topic models.用于社交媒体研究的方法,提出Twtter-LDA,传统LDA并不适用于短文本,这篇论文解决了这一缺点。 作者:WX Zhao J Jiang,J Weng, J H EP Lim https://link.springer.com/chapter/10.1007%2F978-3-642-20161-5_34

  • 0
    点赞
  • 17
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值