spark下实现并行kmeans算法

最新推荐文章于 2024-05-30 08:42:49 发布

爱生活的程序猿

最新推荐文章于 2024-05-30 08:42:49 发布

阅读量4.4k

点赞数 2

分类专栏： spark scala 机器学习

本文链接：https://blog.csdn.net/u014135021/article/details/53819164

版权

相比于本人上篇博客中scala实现的串行kmeans而已，这次的优点体现在并行的计算，并同时运行多组kmeans算法（选取不同的初值），选择其中效果最好的作为结果输出

作为一个初学者，这次的编程让我初步的体会到了函数式编程的魅力，让我见识到了并行计算，学习的道路还有很长啊

package zzl

import org.apache.spark.mllib.linalg.Vector
import org.apache.spark.rdd.RDD
import scala.collection.mutable.ArrayBuffer
import breeze.linalg.norm
import org.apache.spark.mllib.linalg.Vectors

//该case类保存了每个向量本身与该向量的L2范数
case class VectorInform(var Point:Vector,var norm2:Double)
//该case类保存一个向量所对应的中心向量的id与该向量与中心向量之间的花费
case class CenterInform(val center_id:Int,val cost:Double)
class Kmeans(val data:RDD[Vector],val numClusters:Int,val MaxIterations:Int,val runs:Int = 1,
    val threshold:Double=1e-4,val savepath:String="/home/hadoop/haha")extends Serializable{
  def output(data:Array[Array[VectorInform]])
  {
    data.foreach {_.foreach {x=>x.Point.foreachActive((index,value)=>print(index+

最低0.47元/天解锁文章

爱生活的程序猿

关注

2
点赞
踩
11

收藏

觉得还不错? 一键收藏
3
评论
spark下实现并行kmeans算法

相比于本人上篇博客中scala实现的串行kmeans而已，这次的优点体现在并行的计算，并同时运行多组kmeans算法（选取不同的初值），选择其中效果最好的作为结果输出作为一个初学者，这次的编程让我初步的体会到了函数式编程的魅力，让我见识到了并行计算，学习的道路还有很长啊package zzlimport org.apache.spark.mllib.linalg.Vectorim
复制链接

扫一扫