spark-lda报错

最新推荐文章于 2022-07-14 15:33:11 发布

夏殇0808

最新推荐文章于 2022-07-14 15:33:11 发布

阅读量706

点赞数

分类专栏： unsolved

本文链接：https://blog.csdn.net/u012328476/article/details/78993576

版权

本文记录了尝试使用Spark的LDA进行文章主题词聚类时遇到的问题，涵盖了从数据预处理到模型训练的整体流程，但在实际操作中遇到了未解决的错误。

摘要由CSDN通过智能技术生成

学习使用spark的LDA进行文章主题词聚类，最终没有成功，先占个坑，记录错误。。

一、整体流程

原始数据读取及准备：切词、去停用词；
语料库准备：词典建立、词频文档矩阵建立；
LDA 模型训练

二、实际操作

前期数据是按照某种规则切好的词，每行代表一个文档，其内容为以'\t'分割的word，所以直接读取：

f_cut = 'hadoop_path_to_file'
data = sc.textFile(f_cut)
data_sp = data.map(lambda line: line.strip().split())

由于在切词过程中，已经去掉了停用词和不相关词性的词，所以不再通过 TF-IDF建立特征矩阵，使用 TF 建立。使用的是 spark 的Countervectorsizer。

from pyspark.ml.feature import CountVectorizer
corpus = data_sp.zipWithIndex().map(lambda x: [x[1], x[0]]).cache()
df_corpus = corpus.toDF()

df_corpus = df_corpus.select(col("_1").alias("idx"

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

夏殇0808

关注关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

Labeled-LDA-Python:用Python实现L-LDA模型（标签潜在Dirichlet分配模型）

05-23

用Python实现L-LDA模型（标签潜在Dirichlet分配模型）参考：标记的LDA：多标签语料库中信用归因的受监管主题模型Daniel Ramage ... 文本分析的参数估计，Gregor Heinrich。潜在的Dirichlet分配，David M. Blei，...

python做lda分析_Tweet分析，为LDA制作字典时Python错误

weixin_32518073的博客

01-29

313

我用twitterapi for python下载了关于阿姆斯特丹的tweet，用UTF-8编写。现在我正试图为LDA编写一个字典，使用以下代码(只是代码的一部分，但这是导致错误的部分)：dictionary = corpora.Dictionary(line.lower().split() for line in open(input_file))这通常会给我一个错误，这取决于我选择哪个txt文...

1 条评论您还未登录，请先登录后发表或查看评论

报错：

cpmcpmcpmcpm的博客

06-17

980

06-17 10:31:32.265: E/Diag_Lib(14648): Diag_LSM_Init: Failed to open handle to diag driver, error = 13 06-17 10:31:32.725: E/Trace(14722): error opening trace file: No such file or directory (2) 0...

pycharm运行lda项目，导入lda后import lda报错ModuleNotFoundError: No module named ‘lda._lda‘解决

HurryBen的博客

10-22

2151

lda项目地址https://github.com/lda-project/lda 导入后运行import lda报错：ModuleNotFoundError: No module named 'lda._lda' 上图：原因：项目文中有文件夹被命名为“lda”，造成冲突解决方案：重命名上文提到的文件夹比如改名成：(doge)lda 完美运行！ ...

sc.toDF 报错

weixin_40114507的博客

06-05

1002

“ValueError: Cannot run multiple SparkContexts at once; existing SparkContext(app=PySparkShell, master=local[*]) ” 原因：出现这个错误是因为之前已经启动了SparkContext 解决方法：查看代码，看是否有多次运行SparkContext实例；也可以先关闭spark（sc.stop(...

matlab代码输出到word文档-DependencyLDA:Matlab（和C）实现Dependency-LDA，Prior-LDA和Fl

05-23

这是Dependency-LDA，Prior-LDA和Flat-LDA模型的MATLAB（和C）实现，如以下论文所示：田纳西州鲁宾（Rubin，TN），钱伯斯（Chambers），史密斯（Smyth），P。和史蒂夫斯（Steyvers）（2012）。机器学习，88（1-2）...

2D-LDA人脸识别

03-28

2D-LDA（二维线性判别分析）是一种在人脸识别领域广泛应用的数据分析方法。它结合了主成分分析（PCA）的降维能力和线性判别分析（LDA）的分类能力，尤其适用于处理高维图像数据，如人脸图像。在这个上下文中，MATLAB...

机器学习二-LDA算法

最新发布

09-01

1．简述LDA原理、算法模型与优化问题，并给出求解的全程推导细节（拉格朗日乘子法）；证明St=Sb+Sw； 2．给出LDA的各种等价模型表示(除法的、减法的及其调换位置的等)，在各数据集（不少于3个）比较PCA与“LDA...

K-LDA.rar_K-LDA_K-LDA算法MATLAB_KLDA算法_lda_lda人脸识别

07-14

经典kernel LDA算法，可用于人脸识别算法，很好用

開機到sleep 的log

u011589606的专栏

05-29

9791

--------- beginning of /dev/log/main 05-29 08:08:07.813 I/bdAddrLoader( 191): option : f=/persist/bluetooth/.bdaddr 05-29 08:08:07.813 I/bdAddrLoader( 191): option : h 05-29 08:08:07.813 I/bdA

No module named 'sklearn.lda'

Python开发工程师

09-07

8637

当我们使用 sklearn 调用 lda 中的线性判别分析法（LDA）报错问题。 from sklearn.lda import LDA 这种调用方式是老版本的 sklearn 我们应该尝试用新版本的调用方式就可以解决问题。解决方式： from sklearn.discriminant_analysis import LinearDiscriminantAnalysi...

Spark DataFrame——Spark学习日记

YYYYYY.的博客

01-08

175

运行toDF()时报错通过样本类实例化的对象生成DataFrame时（例：val stuDF=stu.toDF）报错错误原因：突然离线，易造成没能来得及删除自动创建的metastore_db文件夹(/home/hadoopadmin/spark-2.3.1-bin-hadoop2.7/bin),这时再次用spark-shell命令进入，则会产生如下报错。解决办法：将metastore_db...

pyspark 数据的读取与保存；pyspark的dataframe转化与展示

weixin_42357472的博客

08-09

6270

1、pyspark 读取与保存参考：http://www.manongjc.com/detail/15-vfxldlrjpphxldk.html dt1 = spark.read.parquet(r'/home/Felix/pycharm_projects/test/testfile.parquet') print(dt1.show()) 保存的时候主要文件夹权限，不然报错ERROR FileOutputCommitter: Mkdirs failed to create file: 修改文件夹权限先

【pyspark】DataFrame基础操作（一）

u011590738的博客

07-14

3184

介绍一下 pyspark 的 DataFrame 基础操作。

robotframework+appium使用过程中遇到的问题

wdmzjzclf的博客

11-26

522

首先一个简单的打开应用命令，如果未安装应用，增加app参数指定apk的位置，具体参数意思就不讲了 Open Application http://localhost:4723/wd/hub platformName=Android platformVersion=5.1.1 deviceName=5017469f appPackage=com.handbblite.app appActivity=com.handbblite.app.ui.HBMainScreen 1...

java lda中文话题_文档主题生成模型(LDA)算法原理及Spark MLlib调用实例(Scala/Java/python)...

weixin_34816557的博客

03-01

246

文档主题生成模型(LDA)算法介绍：LDA(Latent Dirichlet Allocation)是一种文档主题生成模型，也称为一个三层贝叶斯概率模型，包含词、主题和文档三层结构。所谓生成模型，就是说，我们认为一篇文章的每个词都是通过“以一定概率选择了某个主题，并从这个主题中以一定概率选择某个词语”这样一个过程得到。文档到主题服从多项式分布，主题到词服从多项式分布。LDA是一种非监督机器学习技术...

spark 使用lda算法提取中文文档文本主题

qqLK123的博客

07-22

5421

本篇文章的呢主要写的使用spark ml 中的lda算法提取文档的主题的方法思路，不牵扯到lda的算法原理。至于算法请参照http://www.aboutyun.com/thread-20130-1-1.html 这篇文章使用lda算法对中文文本聚类并提取主题，大体上需要这么几个过程： 1.首先采用中文分词工具对中文分词，这里采用开源的IK分词。 2.从分词之后的词表中去掉停用词，生成新

from sklearn.lda import LDA/QDA ImportError: No module named lda/qda

weixin_30347335的博客

03-15

795

版本更新问题。更改为： from sklearn.discriminant_analysis import LinearDiscriminantAnalysis as LDA from sklearn.discriminant_analysis import QuadraticDiscriminantAnalysis as QDA 转载于:https://www.cnblog...

Link-PLSA-LDA：一种新的无监督主题与博客影响力模型

"这篇文档主要讨论了如何改进LDA（Latent Dirichlet Allocation）模型，结合了LDA和PLSA（Probabilistic Latent Semantic Analysis）模型，以提升对博客信息的数据挖掘和主题检测能力。它提出了一种新的无监督模型...