mahout 聚类实例

最新推荐文章于 2021-12-30 14:44:37 发布

无尽之思

最新推荐文章于 2021-12-30 14:44:37 发布

阅读量1.9k

点赞数

本文链接：https://blog.csdn.net/gaoqiv0447/article/details/46605817

版权

1. 对数据集 p04-17.csv 进行K-means, canopy, fuzzy kmeans 聚类，注意数据转换。

将p04-17.csv数据集中的逗号替换为空格，以满足org.apache.mahout.clustering.conversion.InputDriver的要求

hadoop fs -mkdir /user/kevin/mahout6

hadoop fs -copyFromLocal /home/kevin/dataguru/p04-17.txt /user/kevin/mahout6

数据转换

mahout org.apache.mahout.clustering.conversion.InputDriver -i /user/kevin/mahout6/p04-17.txt -o /user/kevin/mahout6/vecfile -v org.apache.mahout.math.RandomAccessSparseVector

Kmeans聚类

mahout kmeans -i /user/kevin/mahout6/vecfile -o /user/kevin/mahout6/result1 -c /user/kevin/mahout6/clu1 -x 20 -k 2 -cd 0.1 -dm org.apache.mahout.common.distance.SquaredEuclideanDistanceMeasure –cl

Canopy聚类

mahout canopy -i /user/kevin/mahout6/vecfile -o /user/kevin/mahout6/result2 -t1 2 -t2 1 -ow

Fuzzy Kmeans聚类

mahout fkmeans -i /user/kevin/mahout6/vecfile -o /user/kevin/mahout6/result3 -c /user/kevin/mahout6/clu2 -m 2 -x 20 -k 2 -cd 0.1 -dm org.apache.mahout.common.distance.SquaredEuclideanDistanceMeasure -ow -cl

2 针对 kmeans 聚类，相同的初始质心，分析不同 k 值、不同迭代次数、不同收敛阈值对聚类结果的影响

设置K值为3，使最终聚类结果为3类

mahout kmeans -i /user/kevin/mahout6/vecfile -o /user/kevin/mahout6/resultKmeans1 -c /user/kevin/mahout6/cluKmeans1 -x 20 -k 3 -cd 0.1 -dm org.apache.mahout.common.distance.SquaredEuclideanDistanceMeasure -cl

mahout clusterdump -s /user/kevin/mahout6/resultKmeans1/clusters-1-final -p /user/kevin/mahout6/resultKmeans1/clusteredPoints -o /home/kevin/dataguru/cluster1.csv -of CSV

结果有三行，分别代表一个聚类

可以用另外的方式导出为TXT文件，更易于阅读，但是后续程序处理使用csv文件更方便。

mahout clusterdump -s /user/kevin/mahout6/resultKmeans1/clusters-1-final -p /user/kevin/mahout6/resultKmeans1/clusteredPoints -o /home/kevin/dataguru/cluster1.txt

将cluster1.csv文档分为K个单独文档用于R语言绘图

使用附件中程序进行处理，每一个聚类生成一个csv文件

有3个中心,

Cluster1包含594个结果中心为0.728， 0.604

VL-1792{n=594 c=[0.728, 0.604] r=[0.096, 0.094]}

Cluster2包含690个结果中心为0.390， 0.622

VL-1794{n=690 c=[0.390, 0.622] r=[0.126, 0.120]}

Cluster3包含516个结果中心为0.593， 0.365

VL-1799{n=516 c=[0.593, 0.365] r=[0.221, 0.119]}

在RStudio中进行调试：

> c1<-read.csv(file=”/Users/kevin/k-means0.csv”,sep=”,”,header=FALSE)

> c2<-read.csv(file=”/Users/kevin/k-means1.csv”,sep=”,”,header=FALSE)