Spark LDA

本文详细介绍了Spark中LDA(Latent Dirichlet Allocation)的主题模型,包括理论基础、参数设置、EM算法和Online VB算法的解释,并提供了1.4和1.5版本的不同之处及代码示例。
摘要由CSDN通过智能技术生成

关于LDA的理论部分,参考其他博客(链接待定),本文主要记录spark中LDA的实现。

spark1.4版本的LDA原文比较简单,下面主要是以翻译官网为主。

理论部分

LDA是一个主题模型,它能够推理出一个文本文档集合的主题。LDA可以认为是一个聚类算法,原因如下:

  • 主题对应聚类中心,文档对应数据集中的样本(数据行)
  • 主题和文档都在一个特征空间中,其特征向量是词频向量
  • 跟使用传统的距离来评估聚类不一样的是,LDA使用评估方式是一个函数,该函数基于文档如何生成的统计模型。

LDA以词频向量表示的文档集合作为输入,输出结果提供:

  • Topics:推断出的主题,每个主题是单词上的概率分布。
  • Topic distributions for documents:对训练集中的每个文档,LDA给一个在主题上的概率分布。

LDA参数

  • K:主题数量(或者说聚簇中心数量)
  • maxIterations:EM算法的最大迭代次数
  • docConcentration:文档在主题上分布的先验参数。当前必须大于1,值越大,推断出的分布越平滑。默认为-1,自动设置。
  • topicConcentration:主题在单词上的先验分布参数。当前必须大于1
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值