文档主题生成模型(LDA)算法原理及Spark MLlib调用实例(Scala/Java/python)

最新推荐文章于 2022-05-05 21:43:17 发布

liulingyuan6

最新推荐文章于 2022-05-05 21:43:17 发布

阅读量4.9k

点赞数

分类专栏： MLlib 文章标签： MLlib Spark 数据挖掘机器学习算法

MLlib 专栏收录该内容

27 篇文章 13 订阅

订阅专栏

LDA是一种三层贝叶斯概率模型，用于文档主题生成。它假设词是由主题生成，主题又随机分布于文档中。在Spark MLlib中，可以设置参数如`k`（主题数）、`maxIter`（迭代次数）等进行模型训练。该模型在大规模文档集中用于发现潜在主题。

摘要由CSDN通过智能技术生成

文档主题生成模型(LDA)

算法介绍：

LDA（Latent Dirichlet Allocation）是一种文档主题生成模型，也称为一个三层贝叶斯概率模型，包含词、主题和文档三层结构。所谓生成模型，就是说，我们认为一篇文章的每个词都是通过“以一定概率选择了某个主题，并从这个主题中以一定概率选择某个词语”这样一个过程得到。文档到主题服从多项式分布，主题到词服从多项式分布。

LDA是一种非监督机器学习技术，可以用来识别大规模文档集（document collection）或语料库（corpus）中潜藏的主题信息。它采用了词袋（bag of words）的方法，这种方法将每一篇文档视为一个词频向量，从而将文本信息转化为了易于建模的数字信息。但是词袋方法没有考虑词与词之间的顺序，这简化了问题的复杂性，同时也为模型的改进提供了契机。每一篇文档代表了一些主题所构成的一个概率分布，而每一个主题又代表了很多单词所构成的一个概率分布。

参数：

checkpointInterval:

类型：整数型。

含义：设置检查点间隔（>=1），或不设置检查点（-1）。

docConcentration:

类型：双精度数组型。

含义：文档关于主题（"theta"）的先验分布集中参数（通常名为“alpha"）。

featuresCol:

类型：字符串型。

含义：特征列名。

类型：整数型。

含义：需推断的主题（簇）的数目。

maxIter:

类型：整数型。

含义：迭代次数（>=0）。

optimizer:

类型：字符串型。

含义：估计LDA模型时使用的优化器。

含义：类别条件概率预测结果列名。

seed:

类型：长整型。

含义：随机种子。

subsamplingRate:

类型：双精度型。

含义：仅对在线优化器（即optimizer=”online”）。

topicConcentration:

类型：双精度型。

含义：主题关于文字的先验分布集中参数（通常名为“beta"或"eta"）。

topicDistributionCol:

类型：字符串型。

含义：每个文档的混合主题分布估计的输出列（文献中通常名为"theta"）。

调用示例：

Scala:

import org.apache.spark.ml.clustering.LDA

// Loads data.
val dataset = spark.read.format("libsvm")
  .load("data/mllib/sample_lda_libsvm_data.txt")

// Trains a LDA model.
val lda = new LDA().setK(10).setMaxIter(10)
val model = lda.fit(dataset)

val ll = model.logLikelihood(dataset)
val lp = model.logPerplexity(dataset)
println(s"The lower bound on the log likelihood of the entire corpus: $ll")
println(s"The upper bound bound on perplexity: $lp")

// Describe topics.
val topics = model.describeTopics(3)
println("The topics described by their top-weighted terms:")
topics.show(false)

// Shows the result.
val transformed = model.transform(dataset)
transformed.show(false)

Java:

import org.apache.spark.ml.clustering.LDA;
import org.apache.spark.ml.clustering.LDAModel;
import org.apache.spark.sql.Dataset;
import org.apache.spark.sql.Row;
import org.apache.spark.sql.SparkSession;

// Loads data.
Dataset<Row> dataset = spark.read().format("libsvm")
  .load("data/mllib/sample_lda_libsvm_data.txt");

// Trains a LDA model.
LDA lda = new LDA().setK(10).setMaxIter(10);
LDAModel model = lda.fit(dataset);

double ll = model.logLikelihood(dataset);
double lp = model.logPerplexity(dataset);
System.out.println("The lower bound on the log likelihood of the entire corpus: " + ll);
System.out.println("The upper bound bound on perplexity: " + lp);

// Describe topics.
Dataset<Row> topics = model.describeTopics(3);
System.out.println("The topics described by their top-weighted terms:");
topics.show(false);

// Shows the result.
Dataset<Row> transformed = model.transform(dataset);
transformed.show(false);

Python：

from pyspark.ml.clustering import LDA

# Loads data.
dataset = spark.read.format("libsvm").load("data/mllib/sample_lda_libsvm_data.txt")

# Trains a LDA model.
lda = LDA(k=10, maxIter=10)
model = lda.fit(dataset)

ll = model.logLikelihood(dataset)
lp = model.logPerplexity(dataset)
print("The lower bound on the log likelihood of the entire corpus: " + str(ll))
print("The upper bound bound on perplexity: " + str(lp))

# Describe topics.
topics = model.describeTopics(3)
print("The topics described by their top-weighted terms:")
topics.show(truncate=False)

# Shows the result
transformed = model.transform(dataset)
transformed.show(truncate=False)