Mahout
文章平均质量分 51
lc890213
这个作者很懒,什么都没留下…
展开
-
Mahout-Canopy
1.Canopy聚类 Canopy聚类是一种简单、快速、但不太准确的聚类方法。 该算法需一种快速的近似距离度量方法和两个距离阈值T1>T2。while(没有标记的数据点){ 选择一个没有强标记的数据点p 把p看作一个新Canopy c的中心 离p距离 离p距离}Canopy聚类常作为更强聚类方法的初始步骤。mahout转载 2013-06-19 07:30:09 · 361 阅读 · 0 评论 -
Mahout-mean shift
3.Mean Shift 聚类 Mean Shift 聚类原理(1). 欧式空间 X 中,有一个有限点的集合 S 。 K 是一个 flat 核,即 简单说来, K 标记 x 是否在以原点为圆心,半径为 lamda 的球体内。 (2). 在 x 处的样本均值表示为 即在以 x 为圆心的球体内所有样本点的均值,而 m(x) –x 即是传说中的“均值飘移”,而转载 2013-06-19 07:30:50 · 567 阅读 · 0 评论 -
Mahout-Kmeans
2.Kmeans聚类 Kmeans算法思想也比较简单 :可见http://baike.baidu.com/view/3447609.htm首先从n个数据对象选择 k 个对象作为初始聚类中心;而对于所剩下其它对象,则根据它们与这些聚类中心的相似度(距离),分别将它们分配给与其最相似的(聚类中心所代表的)聚类;然后再计算每个所获新聚类的聚类中心(该聚类中所有对象的均值);不断重转载 2013-06-19 07:27:54 · 539 阅读 · 0 评论 -
Mahout-Kmeans MR
Mapper (ClusterClassificationMapper.java) protected void setup(Context context) throws IOException, InterruptedException { super.setup(context); Configuration conf = context.getConfig原创 2013-06-19 14:25:48 · 500 阅读 · 0 评论