mahout系列之---谱聚类

原创 2013年12月05日 00:05:06

1.构造亲和矩阵W
2.构造度矩阵D
3.拉普拉斯矩阵L

4.计算L矩阵的第二小特征值(谱)对应的特征向量Fiedler 向量

5.以Fiedler向量作为kmean聚类的初始中心,用kmeans聚类


亲和矩阵 :W_ij=exp(-(d(s_i,s_j)/2o^2))             d(s_i,s_j)  = ||s_i,s_j||.    o 为事先设定的参数。

度矩阵:D_ii  =sum(w_i) 

规范相似矩阵:D^(-1/2)*W*D^(1/2) ,即:W(i,j)/(D(i,i))^1/2*(D(j,j))^1/2

计算(D-W)*x=lamd*D*x  的第二小特征值



Mahout 流程:

          

           亲和矩阵格式
           i,j,value
           AffinityMatrixInputJob 输出格式
           i  vector


           构造度矩阵(亲和矩阵,i行元素求和作为返回向量i列的值)
           MatrixDiagonalizeJob


     

          VectorCache 将向量存储在HDFS中
          VectorMatrixMultiplicationJob 向量矩阵相乘
         

          求矩阵的特征值:SSVDSolver  (分布式SVD),默认是DistributedLanczosSolver(兰索斯分解器)

         

         将U矩阵归一化

         UnitVectorizerJob.runJob(data, unitVectors);

               UnitVectorizerJob 归一化矩阵
             输入矩阵V,输入矩阵U
           v_ij = u_ij / sqrt(sum_j(u_ij * u_ij)


               归一化后的U矩阵中i行的最大值作为特征向量的i列的值,以该向量作为种子生成初始中心。

         Kmeans 聚类,生成最终的簇。


       

        

      


既生Mahout,何生Spark MLlib ?

Apache Mahout与Spark MLlib均是Apache下的项目,都是机器学习算法库,并且现在mahout已经不再接受MapReduce的作业了,也向Spark转移。那两者有什么关系呢?我们...
  • m0epNwstYk4
  • m0epNwstYk4
  • 2017年12月13日 00:00
  • 515

mahout下的Hadoop平台上的Kmeans算法实现

Mahout主要有协同过滤、聚类和分类三种算法的实现。现在我们就用Mahout来实现经典的Kmeans聚类算法。并且在Hadoop平台上跑出个结果!...
  • u011439289
  • u011439289
  • 2015年04月05日 15:23
  • 2575

Mahout系列一

http://www.cnblogs.com/fengfenggirl/p/associate_mahout.html   Mahout学习资料整理 Oct122013 作者:逍遥冲   发布:20...
  • scut1135
  • scut1135
  • 2013年12月01日 18:39
  • 943

Mahout算法集

Apache Mahout 是 ApacheSoftware Foundation (ASF) 旗下的一个开源项目,提供一些可扩展的机器学习领域经典算法的实现,旨在帮助开发人员更加方便快捷地创建智能应...
  • lanzily99
  • lanzily99
  • 2014年01月19日 23:06
  • 2557

Eclipse下mahout实现推荐的简单实例

数据准备:test.txt 第一列为UserID ,第二列为ItemID,第三列为Preference Value 即评分 [plain] view plaincopyprint? ...
  • zhoubl668
  • zhoubl668
  • 2013年10月28日 17:44
  • 5691

Linux上安装Mahout的方法步骤

在安装Mahout之前,要先安装Hadoop,本文的前提是Hadoop已安装完成
  • Olaking
  • Olaking
  • 2014年10月07日 13:58
  • 1463

基于user的推荐系统--以Mahout为实例

mahout中基于user的推荐系统,详细介绍了用到的相似性度量--皮尔逊相关系数。...
  • huruzun
  • huruzun
  • 2015年10月17日 21:31
  • 1216

Mahout推荐开发总结

Mahout推荐算法API详解
  • ldds_520
  • ldds_520
  • 2016年07月09日 09:38
  • 724

mahout 推荐 参数

org.apache.mahout.cf.taste.Hadoop.item.RecommenderJob。其输入数据放在默认输入目录下,使用mapred.input.dir参数指定的输入数据,是us...
  • godspeedlaile9
  • godspeedlaile9
  • 2014年08月19日 21:10
  • 573

mahout 推荐系统

用Mahout来构建推荐系统,是一件既简单又困难的事情。简单是因为Mahout完整地封装了“协同过滤”算法,并实现了并行化,提供非常简单的API接口;困难是因为我们不了解算法细节,很难去根据业务的场景...
  • wolvesqun
  • wolvesqun
  • 2016年10月08日 16:31
  • 1378
内容举报
返回顶部
收藏助手
不良信息举报
您举报文章:mahout系列之---谱聚类
举报原因:
原因补充:

(最多只允许输入30个字)