1,二进制转换成文本格式命令
mahout seqdumper -i output/clusterPoint -o dataset/clusterPoint
2,查看结果集中Key的个数
cat file |awk '{print $2}'|sort|uniq
3,聚类算法实战步骤
a,提取feature
b,将feature向量化
A,向量的表现形式
DenseVector:元素数目即为feature总数
RandomAccessSparseVector:采用hashMap保存,更节省空间
SequentialAccessSparseVector:经优化,便于随机存储
B,向量的转化方式
通过lucene库:mahout lucenevector ...
通过mahout库:mahout seqdurector -i input -o output /mahout seq2sparse -i input -o output --maxDFPercent 85 --namedVector
自己编写程序
C,将数据保存成SequenceFile格式
c,利用K-means算法实现聚类
4,将向量二进制数据转换成向量文本数据
mahout vectordumper -i output/data -o dataset/raw_data
5,将SGML格式的数据文件转换为文本文件
mahout org.apache.lucene.benchmark.utils.ExtractReuters input output
6,计算向量距离的算法汇总
a,EuclideanDistanceMeasure
b,SquaredEuclideanDistanceMeasure
c,ManhattanDistanceMeasure
d,CosineDistanceMeasure
e,TanimotoDistanceMeasure