Mahout聚类质量度量与hadoop的应用

翻译 2012年08月10日 14:48:27

Mahout聚类质量度量

聚类输出检查

ClusterDumper Mahout聚类结果检查类,位置org.apache.mahout.utils.clustering

输出文档分类最重要的特点基准

ClusterDumper 运行参数介绍与demo

 

Option

Flag

Description

Default Value

SequenceFile dir (String)

-s

The directory containing the SequenceFile of the clusters

N/A

Output (String)

-o

The output file, if not specified print the output into the console

N/A

Points Directory (String)

-p

At the end of clustering, Mahout clustering algorithms produce two kinds of output. One is the set of <cluster-id, centroid> pair, other is the set <point-id, cluster-id> pair. The latter is generated when clustering finishes and usually resides in the points folder under the output. When this parameter is set to the points folder, all the points in a cluster are written to the output

N/A

JSON output (bool)

-j

If set, the centroid is written as a JSON format. Otherwise it substitutes in the terms for vector cell entries. By default this flag is unset

N/A

Dictionary (String)

-d

The path to the dictionary file which has the reverse mapping of integer id to word

N/A

Dictionary Type (String)

-dt

Format of the dictionary file. If text, then the integer id, and the terms should be tab separated. If the format is sequencefile, it should have an Integer key and a String value

text

Number of Words (int)

-n

The number of top terms to print.

10

 

运行demo

bin/mahout clusterdump

-s kmeans-output/clusters-19/

-o output.txt

-d reuters-vectors/dictionary.file-0

-dt sequencefile -n 10

 

聚类输出分析

1.       距离度量和特征选择  文本相似度分析师cos好于欧几里得距离

2.       聚类间距离与聚类内距离度量

 

聚类质量改善

1.文本向量生成改进(Lucene Analyzer):从Analyzer接口派生,重载

tokenStream的实现

2. 自定义距离度量实现从DistanceMeasure 接口派生,重载distance函数

 

Mahouthadoop上的应用

1.       使用SparseVector而不是DenseVector(矩阵一般为稀疏矩阵,SparseVector速度相对快很多)

2.     创建DistanceMeasure的注意事项:1)避免clone或者实例化新vector2)注意只访问非0元素(使用Vector.iterateNonZero() 而不是Vector.iterator()  3)注意vector的访问效率

3.       使用equentialAccesssSparseVector而不是RandomAccessSparseVector.

4.       使用适当的vector(稀疏的DenseVector可能带来磁盘I/O

5.       使用HDFS(文件有3份备份,可以防止网络I/O瓶颈)

6.       减少聚类数目(降低计算量最快方法)

相关文章推荐

利用LDA进行文本聚类(hadoop, mahout)

test

白盒测试 静态质量度量法

根据ISO/IEC 9126国际标准的定义,软件的质量包括以下六个方面: l  功能性(FUNCTLONALITY); l  可靠性(RELIABILITY): l  可用性(USABILITY...
  • lala515
  • lala515
  • 2011年08月04日 10:44
  • 1073

质量度量指标设定分析-1

公司在搞质量

mahout应用kmeans进行文本聚类2之——实例分析

在Mahout_in_Action这本书中,给了一个文本的聚类实例,并提供了原始输入数据,下面结合例子说明 作为聚类算法的主要应用场景 - 文本分类,对文本信息的建模也是一个常见的问题。在信息检索...
  • aidayei
  • aidayei
  • 2011年08月09日 22:49
  • 9113

质量度量分析与测试技术 培训大纲

一、 过程质量度量 1、 需求和设计质量的度量  如何进行有效的评审、需求Checklist  评审过程质量的度量 2、 代码质量的度量  代码审查。度量代码规范性、复杂度、耦合度、可维护性...

基于软件过程改进的质量度量模型

目前,软件项目需求正飞速增长,相应引起了软件开发活动的急剧增长,使软件过程(即用于开发和维护软件及其相关产品的一组活动、方法、实践及转换得到更多的关注。因为软件过程在成本估算、项目进度和软件质量等方面...

质量度量指标设定分析-2

质量指标列表: No 指标名称 指标描述 能力维度     1 进度偏差 实际结束日期-计划结束日...

软件质量度量

  • 2013年12月05日 10:24
  • 352KB
  • 下载

软件质量度量ppt

  • 2015年05月04日 14:54
  • 102KB
  • 下载

mahout读书笔记 -- 聚类(2)

最简单例子: 聚类算法包括k-means,canopy,fuzzy k-means,lda等,例子是用k-means讲解的。 mahout的聚类算法要求输入格式是sequencefile,hado...
内容举报
返回顶部
收藏助手
不良信息举报
您举报文章:Mahout聚类质量度量与hadoop的应用
举报原因:
原因补充:

(最多只允许输入30个字)