Scala语言 + Spark MLLib进行机器学习---聚类

最新推荐文章于 2022-04-22 10:23:32 发布

雁寻

最新推荐文章于 2022-04-22 10:23:32 发布

阅读量2k

点赞数

分类专栏： Spark/Scala 机器学习文章标签：机器学习 spark scala 聚类

机器学习同时被 2 个专栏收录

8 篇文章 0 订阅

订阅专栏

Spark/Scala

5 篇文章 0 订阅

订阅专栏

在下面的例子中，我们首先加载和解析数据，然后使用KMeans算法将数据聚成两类。聚类的数目可以在程序中设定并传递给KMeans算法。然后计算集合内方差和（ Within Set Sum of Squared Error，这是评价聚类好坏的标准，数值越小说明同一簇实例之间的距离越小。---译者注）

import org.apache.spark.mllib.clustering.KMeans

// Load and parse the data
val data = sc.textFile("kmeans_data.txt")
val parsedData = data.map( _.split(' ').map(_.toDouble))

// Cluster the data into two classes using KMeans
val numIterations = 20
val numClusters = 2
val clusters = KMeans.train(parsedData, numClusters, numIterations)

// Evaluate clustering by computing Within Set Sum of Squared Errors
val WSSSE = clusters.computeCost(parsedData)
println("Within Set Sum of Squared Errors = " + WSSSE)

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

雁寻

关注关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
Scala语言 + Spark MLLib进行机器学习---聚类

在下面的例子中，我们首先加载和解析数据，然后使用KMeans算法将数据聚成两类。聚类的数目可以在程序中设定并传递给KMeans算法。然后计算集合内方差和（ Within Set Sum of Squared Error，这是评价聚类好坏的标准，数值越小说明同一簇实例之间的距离越小。---译者注）import org.apache.spark.mllib.clustering.KMe
复制链接

扫一扫