Spark LDA

最新推荐文章于 2021-03-10 07:08:19 发布

蜡笔大龙猫

最新推荐文章于 2021-03-10 07:08:19 发布

阅读量9.7k

点赞数 1

分类专栏：主题模型算法 spark 文章标签： spark LDA

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/pirage/article/details/50219323

版权

本文详细介绍了Spark中LDA（Latent Dirichlet Allocation）的主题模型，包括理论基础、参数设置、EM算法和Online VB算法的解释，并提供了1.4和1.5版本的不同之处及代码示例。

摘要由CSDN通过智能技术生成

关于LDA的理论部分，参考其他博客（链接待定），本文主要记录spark中LDA的实现。

spark1.4版本的LDA原文比较简单，下面主要是以翻译官网为主。

理论部分

LDA是一个主题模型，它能够推理出一个文本文档集合的主题。LDA可以认为是一个聚类算法，原因如下：

主题对应聚类中心，文档对应数据集中的样本（数据行）
主题和文档都在一个特征空间中，其特征向量是词频向量
跟使用传统的距离来评估聚类不一样的是，LDA使用评估方式是一个函数，该函数基于文档如何生成的统计模型。

LDA以词频向量表示的文档集合作为输入，输出结果提供：

Topics：推断出的主题，每个主题是单词上的概率分布。
Topic distributions for documents：对训练集中的每个文档，LDA给一个在主题上的概率分布。

LDA参数

K：主题数量（或者说聚簇中心数量）
maxIterations：EM算法的最大迭代次数
docConcentration：文档在主题上分布的先验参数。当前必须大于1，值越大，推断出的分布越平滑。默认为-1，自动设置。
topicConcentration：主题在单词上的先验分布参数。当前必须大于1

最低0.47元/天解锁文章

蜡笔大龙猫

关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。