mahout之lda（cvb）运用

最新推荐文章于 2024-04-15 21:36:27 发布

madujin

最新推荐文章于 2024-04-15 21:36:27 发布

阅读量1.4k

点赞数

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/madujin/article/details/53762386

版权

关于lda主题模型这里不做详解，这里只谈谈怎么用mahout包中的lda。

准备工作：

1.数据准备，准备好相应文档数据，这里是采用的是中文的

2.已经配置好hadoop、mahout、jdk等。

步骤：

1、准备好数据文件，这里先做好分词，可采用jieba先分好词

打开一个文件，如下

2、在hdfs上新建一个文件，命令如下：

hdfs dfs mkdir -p cvb

hdfs dfs mkdir -p cvb/data

3、将文件上传到hdfs上：

hdfs dfs -put ~/Documents/Textfile/* cvb/data

用hdfs dfs -ls cvb/data 查看是否上传成功

4、将数据文件转成序列化文件：

mahout seqdirectory -i cvb/data -o cvb/seq

将数据文件序列化并存在cvb/seq下，

hdfs dfs -ls cvb/seq，查看到：

5、将序列文件向量化：

这里-o是输出路径，

-wt是生成tfidf文件

--analyzerName 在这里需要指定这里包，因为默认不是中文，要对中文进行处理，才需要用到lucene的这个包。

查看结果：

这里可查看这里的dictionary.file-0，看分词是否成功，

6、将向量文件，转成矩阵：

7、调用cvb：

-o输出文件位置

-k 生成主题个数

-x 设置迭代次数

-ow是否覆盖迭代结果

-dict 指定词典位置

-dt生成文档主题

-mt 生成主题模型

8、查看结果

查看topic，把生成的文档拷到本地

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
mahout之lda（cvb）运用

关于lda主题模型这里不做详解，这里只谈谈怎么用mahout包中的lda。准备工作： 1.数据准备，准备好相应文档数据，这里是采用的是中文的2.已经配置好hadoop、mahout、jdk等。步骤：1、准备好数据文件，这里先做好分词，可采用jieba先分好词打开一个文件，如下2、在hdfs上新建一个文件，命令如下： hdfs
复制链接

扫一扫

madujin CSDN认证博客专家 CSDN认证企业博客

码龄12年

18: 原创

43万+: 周排名

125万+: 总排名

5万+: 访问

: 等级

550: 积分

6: 粉丝

42: 获赞

8: 评论

112: 收藏

私信

关注

热门文章

分类专栏

最新评论

zotero word 调整样式上标
小魏的账号: 你好，请问这个怎么修改字体字号呢？
浅谈simhash及其python实现
学习使机器快乐: 请问一下博主，为什么simhash函数中的weight要乘20
浅谈simhash及其python实现
zhongweics: 您好我想问您一下这个string_hash的算法思想
浅谈simhash及其python实现
Bonner1: 你好，可以在你的这篇博客加入个示例，如何调用该simhash的类吗？
浅谈simhash及其python实现
madujin 回复 chendzry: 抱歉，很久没上这个了，回复的慢了。 simhash是用词频作为文章的代表的。 1、取决于你使用的content，content有多长，却掉尾部词，会对词频产生什么影响，这些都会影响最终结果。 2、还有你说的词的顺序，文章词的顺序如果不对词频产生影响，就不会影响，如果你对文章顺序有要求，你可以试试shingling算法，不过这个算法，比较慢

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。