mahout应用kmeans进行文本聚类1之——输入输出分析

最新推荐文章于 2023-04-09 22:25:14 发布

aidayei

最新推荐文章于 2023-04-09 22:25:14 发布

阅读量1w

点赞数

分类专栏：机器学习与数据挖掘文章标签：终端存储

本文链接：https://blog.csdn.net/aidayei/article/details/6674112

版权

机器学习与数据挖掘专栏收录该内容

15 篇文章 0 订阅

订阅专栏

输入分析：

mahout下处理的文件必须是SequenceFile格式的，所以需要把txtfile转换成sequenceFile，而聚类必须是向量格式的，mahout提供下面两个命令来将文本转成向量形式
1.mahout seqdirectory：将文本文件转成SequenceFile文件，SequenceFile文件是一种二制制存储的key-value键值对，对应的源文件是org.apache.mahout.text.SequenceFilesFromDirectory.java

2.mahout seq2sparse：将SequenceFile转成向量文件，对应的源文件是org.apache.mahout.vectorizer.SparseVectorsFromSequenceFiles.java

输出分析：即查看结果
mahout seqdumper：将SequenceFile文件转成可读的文本形式，对应的源文件是org.apache.mahout.utils.SequenceFileDumper.java
mahout vectordump：将向量文件转成可读的文本形式，对应的源文件是org.apache.mahout.utils.vectors.VectorDumper.java
mahout clusterdump：分析最后聚类的输出结果，对应的源文件是org.apache.mahout.utils.clustering.ClusterDumper.java

具体每种命令如何用及参数选择，可以在命令行后面加-h或-help，例如，查看mahout seqdumper -h，这样终端下，就会列出详细的参数选项及说明

最重要的是读读这几个命令的源代码，看看是如何实现的，这样才可以灵活运用到自己的应用中去

aidayei

关注

0
点赞
踩
5

收藏

觉得还不错? 一键收藏
3
评论
mahout应用kmeans进行文本聚类1之——输入输出分析

输入分析：mahout下处理的文件必须是SequenceFile格式的，所以需要把txtfile转换成sequenceFile，而聚类必须是向量格式的，mahout提供下面两个命令来将文本转成向量形式1.mahout seqdirectory：将文本文件转成Sequenc
复制链接

扫一扫