![](https://img-blog.csdnimg.cn/20201014180756754.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
MLlib
文章平均质量分 96
tanglizhe1105
擅长分布式系统,热爱scala、java编程语言
展开
-
google PLDA + 实现原理及源码分析
LDA背景LDA(隐含狄利克雷分布)是一个主题聚类模型,它能通过学习的方法把一组特征向量按主题分类,广泛运用在文本主题聚类中。 LDA的开源实现有很多,目前广泛使用的、能够多机器分布式并行的实现有微软的LightLDA,谷歌plda、plda+,spark MLlib LDA等等 LightLDA的实现依赖于它们自己实现的multiverso参数服务器,底层使用mpi或zeromq进行消息发送原创 2016-01-20 16:10:33 · 11980 阅读 · 4 评论 -
Spark MLlib LDA 基于GraphX实现原理及源码分析
LDA背景LDA(隐含狄利克雷分布)是一个主题聚类模型,是当前主题聚类领域最火的、最有力的模型之一,它能通过多轮迭代的方式把特征向量集合按主题分类。目前,广泛运用在文本主题聚类中。 LDA的开源实现有很多。目前广泛使用的、能够多机器并行处理大规模语料库的有实现有微软的LightLDA,谷歌plda、plda+,sparkLDA等等。下面介绍这3种LDA实现的特点: LightLDA的实现依赖于微原创 2016-02-25 22:20:01 · 7242 阅读 · 5 评论