最近研究数据挖掘算法的时候接触到LDA主题模型,看了不少很好的文章,也找到了不少很好的实现代码,大致在这里总结一下
LDA(Latent Dirichlet Allocation)
中文翻译为:潜在狄利克雷分布。LDA主题模型是一种文档生成模型,是一种非监督机器学习技术。它认为一篇文档是有多个主题的,而每个主题又对应着不同的词。一篇文档的构造过程,首先是以一定的概率选择某个主题,然后再在这个主题下以一定的概率选出某一个词,这样就生成了这篇文档的第一个词。不断重复这个过程,就生成了整篇文章。
这里贴一些写的比较好的文章
比较通俗易懂的文章:
自然语言处理-LDA主题模型
主题模型(LDA)(一)–通俗理解与简单应用
相对比较专业的公式推导:
文本主题模型之LDA(一) LDA基础
文本主题模型之LDA(二) LDA求解之Gibbs采样算法
文本主题模型之LDA(三) LDA求解之变分推断EM算法
LDA原始论文(推荐读一下)
算法实现:
lda-project
a55509432
当然相关资料远远不止这些,想更多了解的话可以去搜一下相关论文,想真正搞懂这个模型算法需要对概率相关知识有一定了解,尽量还是先打好基础再学习,这样更容易理解一些。