spark-knn的简易实现

最新推荐文章于 2022-10-26 12:03:58 发布

九指码农

最新推荐文章于 2022-10-26 12:03:58 发布

阅读量2.4k

点赞数 1

分类专栏：机器学习文章标签： spark KNN

本文链接：https://blog.csdn.net/qq_14950717/article/details/54893170

版权

机器学习专栏收录该内容

12 篇文章 0 订阅

订阅专栏

spark-knn，spark是一个很优秀的分布式计算框架，本文实现的knn是基于欧几里得距离公式实现的，下面开始起简单的实现，可能有多问题希望大家能够给指出来。

    Logger.getLogger("org.apache.spark").setLevel(Level.WARN)
    Logger.getLogger("org.eclipse.jetty.server").setLevel(Level.OFF)
    val conf = new SparkConf( ).setAppName("knn")
    conf.set("spark.serializer","org.apache.spark.serializer.KryoSerializer")
    val sc = new SparkContext( conf )

    val k:Int = 6
    val path = "hdfs://master:9000/knn.txt"
    val data = sc.textFile( path ).map( line =>{
      val pair = line.split( "\\s+" )
      ( pair( 0 ).toDouble,pair( 1 ).toDouble ,pair( 2 ) )
    } )
    val total:Array[ RDD[(Double,Double,String)] ] = data.randomSplit(Array( 0.7,0.3 ) )
    val train = total( 0 ).cache()
    val test = total( 1 ).cache()
    train.count()
    test.count()
    val bcTrainSet = sc.broadcast( train.collect() )

    val bck = sc.broadcast( k )

    val resultSet = test.map{ line => {
      val x = line._1
      val y = line._2
      val trainDatas = bcTrainSet.value
      val set = scala.collection.mutable.ArrayBuffer.empty[(Double, String)]
      trainDatas.foreach( e => {
        val tx = e._1.toDouble
        val ty = e._2.toDouble
        val distance = Math.sqrt( Math.pow( x - tx, 2 ) + Math.pow( y - ty, 2 ) )
        set.+= (( distance, e._3 ) )
      })
      val list = set.sortBy( _._1 )
      val categoryCountMap = scala.collection.mutable.Map.empty[String, Int]
      val k = bck.value
      for ( i <- 0 until k ){
        val category = list(i)._2
        val count = categoryCountMap.getOrElse( category, 0 ) + 1
        categoryCountMap += ( category -> count )
      }
      val ( rCategory,frequency ) = categoryCountMap.maxBy( _._2 )
      ( x, y, rCategory )
    }}

    resultSet.repartition(1).saveAsTextFile( "hdfs://master:9000/knn/result" )