Spark LDA

最新推荐文章于 2022-06-14 20:11:39 发布

原创

最新推荐文章于 2022-06-14 20:11:39 发布 · 9.8k 阅读

·

1

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

本文详细介绍了Spark中LDA（Latent Dirichlet Allocation）的主题模型，包括理论基础、参数设置、EM算法和Online VB算法的解释，并提供了1.4和1.5版本的不同之处及代码示例。

关于LDA的理论部分，参考其他博客（链接待定），本文主要记录spark中LDA的实现。

spark1.4版本的LDA原文比较简单，下面主要是以翻译官网为主。

理论部分

LDA是一个主题模型，它能够推理出一个文本文档集合的主题。LDA可以认为是一个聚类算法，原因如下：

主题对应聚类中心，文档对应数据集中的样本（数据行）
主题和文档都在一个特征空间中，其特征向量是词频向量
跟使用传统的距离来评估聚类不一样的是，LDA使用评估方式是一个函数，该函数基于文档如何生成的统计模型。

LDA以词频向量表示的文档集合作为输入，输出结果提供：

Topics：推断出的主题，每个主题是单词上的概率分布。
Topic distributions for documents：对训练集中的每个文档，LDA给一个在主题上的概率分布。

LDA参数

K：主题数量（或者说聚簇中心数量）
maxIterations：EM算法的最大迭代次数
docConcentration：文档在主题上分布的先验参数。当前必须大于1，值越大，推断出的分布越平滑。默认为-1，自动设置。
topicConcentration：主题在单词上的先验分布参数。当前必须大于1，值越大，推断出的分布越平滑。默认为-1，自动设置。
checkpointInterval：检查点间隔。maxIterations很大的时候，检查点可以帮助减少shuffle文件大小并且可以帮助故障恢复。

LDA算法

通过设置setOptimizer 函数，spark提供不

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。