spark - k-mean

最新推荐文章于 2024-05-30 08:42:49 发布

谷雨hadoop

最新推荐文章于 2024-05-30 08:42:49 发布

阅读量1.2k

点赞数

分类专栏： spark 文章标签： k-mean

本文链接：https://blog.csdn.net/linux_ja/article/details/40820749

版权

spark 专栏收录该内容

8 篇文章 0 订阅

订阅专栏

/**
 *  1.0 1.0
 * 1.0 2.0
 * 2.0 1.0
 * 2.0 2.0
 * 3.0 3.0
 * 3.0 4.0
 * 4.0 3.0
 * 4.0 4.0
 */
package com.spark.test

import org.apache.spark.{ SparkContext, SparkConf }
import org.apache.spark.SparkContext._

import org.apache.spark.mllib.clustering.KMeans
import org.apache.spark.mllib.linalg.Vectors

object ObKMeans {
  def main(args: Array[String]) {
    run()
  }

  def run() {

    val conf = new SparkConf().setAppName("ObKMeansTest")
    val sc = new SparkContext(conf)

    // Load and parse the data  
    val data = sc.textFile("/ruson/kmean.txt")
    //            org.apache.spark.mllib.linalg.Vector
    //            val parsedData = data.map( _.split(' ').map(_.toVector))  
    val parsedData = data.map(s => Vectors.dense(s.split(' ').map(_.toDouble)))

    // Cluster the data into two classes using KMeans  
    val numIterations = 20
    val numClusters = 4
    val clusters = KMeans.train(parsedData, numClusters, numIterations)

    // Evaluate clustering by computing Within Set Sum of Squared Errors  
    val WSSSE = clusters.computeCost(parsedData)
    
    println("Within Set Sum of Squared Errors = " + WSSSE)

    val result = parsedData.map(point => clusters.predict(point))
    val resultFile = "/ruson/KMeansResult"
    result.saveAsTextFile(resultFile)
    println("Result file : " + resultFile)
  }
}

上面是数据集；运行之后结果分为四类如下

谷雨hadoop

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
spark - k-mean

/** * 1.0 1.0 * 1.0 2.0 * 2.0 1.0 * 2.0 2.0 * 3.0 3.0 * 3.0 4.0 * 4.0 3.0 * 4.0 4.0 */package com.spark.testimport org.apache.spark.{ SparkContext, SparkConf }import org.apache.spark.Spa
复制链接

扫一扫

专栏目录