这是一篇面向工程师的LDA入门笔记,并且提供一份开箱即用Java实现。本文只记录基本概念与原理,并不涉及公式推导。文中的LDA实现核心部分采用了arbylon的LdaGibbsSampler并力所能及地注解了,在搜狗分类语料库上测试良好,开源在GitHub上。什么是主题模型在我的博客上,有篇文章《Aho Corasick自动机双数组Trie树极速多模式匹配》被归入算法目录,算法即为该文章的主题。而该文章因为涉及到中文分词,又被我归入了分词目录。所以该文章的主题并不单一,具体来说文中80%在讲算法,20%稍微...
继续阅读:码农场 » LDA入门与Java实现
原文链接:http://www.hankcs.com/nlp/lda-java-introduction-and-implementation.html