Mahout聚类质量度量与hadoop的应用

翻译 2012年08月10日 14:48:27

Mahout聚类质量度量

聚类输出检查

ClusterDumper Mahout聚类结果检查类,位置org.apache.mahout.utils.clustering

输出文档分类最重要的特点基准

ClusterDumper 运行参数介绍与demo

 

Option

Flag

Description

Default Value

SequenceFile dir (String)

-s

The directory containing the SequenceFile of the clusters

N/A

Output (String)

-o

The output file, if not specified print the output into the console

N/A

Points Directory (String)

-p

At the end of clustering, Mahout clustering algorithms produce two kinds of output. One is the set of <cluster-id, centroid> pair, other is the set <point-id, cluster-id> pair. The latter is generated when clustering finishes and usually resides in the points folder under the output. When this parameter is set to the points folder, all the points in a cluster are written to the output

N/A

JSON output (bool)

-j

If set, the centroid is written as a JSON format. Otherwise it substitutes in the terms for vector cell entries. By default this flag is unset

N/A

Dictionary (String)

-d

The path to the dictionary file which has the reverse mapping of integer id to word

N/A

Dictionary Type (String)

-dt

Format of the dictionary file. If text, then the integer id, and the terms should be tab separated. If the format is sequencefile, it should have an Integer key and a String value

text

Number of Words (int)

-n

The number of top terms to print.

10

 

运行demo

bin/mahout clusterdump

-s kmeans-output/clusters-19/

-o output.txt

-d reuters-vectors/dictionary.file-0

-dt sequencefile -n 10

 

聚类输出分析

1.       距离度量和特征选择  文本相似度分析师cos好于欧几里得距离

2.       聚类间距离与聚类内距离度量

 

聚类质量改善

1.文本向量生成改进(Lucene Analyzer):从Analyzer接口派生,重载

tokenStream的实现

2. 自定义距离度量实现从DistanceMeasure 接口派生,重载distance函数

 

Mahouthadoop上的应用

1.       使用SparseVector而不是DenseVector(矩阵一般为稀疏矩阵,SparseVector速度相对快很多)

2.     创建DistanceMeasure的注意事项:1)避免clone或者实例化新vector2)注意只访问非0元素(使用Vector.iterateNonZero() 而不是Vector.iterator()  3)注意vector的访问效率

3.       使用equentialAccesssSparseVector而不是RandomAccessSparseVector.

4.       使用适当的vector(稀疏的DenseVector可能带来磁盘I/O

5.       使用HDFS(文件有3份备份,可以防止网络I/O瓶颈)

6.       减少聚类数目(降低计算量最快方法)

mahout下的Hadoop平台上的Kmeans算法实现

Mahout主要有协同过滤、聚类和分类三种算法的实现。现在我们就用Mahout来实现经典的Kmeans聚类算法。并且在Hadoop平台上跑出个结果!...
  • u011439289
  • u011439289
  • 2015年04月05日 15:23
  • 2704

Mahout之聚类Canopy分析

聚类是机器学习里很重要的一类方法,基本原则是将“性质相似”(这里就有相似的标准问题,比如是基于概率分布模型的相似性又或是基于距离的相似性)的对象尽可能的放在一个Cluster中而不同Cluster中对...
  • yclzh0522
  • yclzh0522
  • 2011年10月24日 15:07
  • 3798

mahout聚类实例

数据准备一般的初始数据如下所示,每行代表一组特征值。28 88 38 88 88 88 8 88 89 8 78 80数据预处理mahout org.apache.mahout.clustering....
  • u012948976
  • u012948976
  • 2015年12月11日 14:57
  • 1030

Mahout K-Means输出结果解析

怎么使用Mahout做聚类有空我会专门写的,这篇博客主要为了讲一下Mahout处理的结果。 Mahout版本为0.9,数据没做归一化、标准化,只是为了测试。输出目录下有clusteredPoints...
  • Dr_Guo
  • Dr_Guo
  • 2016年10月19日 17:12
  • 1894

基于hadoop的推荐算法-mahout版

http://blackproof.iteye.com/blog/2110877 基于hadoop的推荐算法,讲其中mahout实现的基于项目的推荐算法 分为4步: 1.获得人-...
  • onlyForCloud
  • onlyForCloud
  • 2015年09月10日 15:50
  • 2315

Mahout机器学习平台之聚类算法详细剖析(含实例分析)

第一部分: 学习Mahout必须要知道的资料查找技能: 学会查官方帮助文档:        解压用于安装文件(mahout-distribution-0.6.tar.gz),找到如下位置,我将该文件解...
  • zhongwen7710
  • zhongwen7710
  • 2014年05月19日 22:36
  • 3009

mahout运行测试与数据挖掘算法之聚类分析(一)kmeans算法解析

在使用mahout之前要安装并启动hadoop集群 将mahout的包上传至linux中并解压即可 mahout下载地址: 点击打开链接 mahout中的算法大致可以分为三大类: 聚类,协同过滤...
  • qq1010885678
  • qq1010885678
  • 2015年04月10日 20:25
  • 1701

mahout 聚类大全

http://my.oschina.net/u/1047640/blog/263742mahout要求数据时空格分割的序列化文件,所以先把,逗号都换成空格,然后使用inputDriver这个工具类对文...
  • zhonglongshen
  • zhonglongshen
  • 2015年05月17日 10:35
  • 444

mahout聚类结果的输出和可视化

1、在mahout中,org.apache.mahout.utils.clustering.ClusterDumper类可以将聚类结果输出,如果是打印在控制台,则可以使用:  ClusterDump...
  • wanghailong000
  • wanghailong000
  • 2016年11月30日 21:15
  • 1033

Mahout驾驭hadoop之详解

众所周知,Mahout是基于Hadoop分布式系统的,要想看懂Mahout的源码,首先得明白mahout是如何使用hadoop的!             首先,在我的>一篇中,详细介绍了hadoo...
  • yclzh0522
  • yclzh0522
  • 2011年10月10日 16:36
  • 17355
内容举报
返回顶部
收藏助手
不良信息举报
您举报文章:Mahout聚类质量度量与hadoop的应用
举报原因:
原因补充:

(最多只允许输入30个字)