Spark ML - 聚类算法

最新推荐文章于 2024-05-10 09:12:55 发布

月亮与六便士丶

最新推荐文章于 2024-05-10 09:12:55 发布

阅读量4k

点赞数 1

分类专栏：机器学习 spark 文章标签： Spark ML SparkML 机器学习

本文链接：https://blog.csdn.net/qq_41577045/article/details/80211274

版权

http://ihoge.cn/2018/ML2.html

Spark ML - 聚类算法

1.KMeans快速聚类

首先到UR需要的包：

import org.apache.spark.ml.clustering.{KMeans,KMeansModel}
import org.apache.spark.ml.linalg.Vectors

开启RDD的隐式转换：

import spark.implicits._

为了便于生成相应的DataFrame，这里定义一个名为model_instance的case class作为DataFrame每一行（一个数据样本）的数据类型。

case class model_instance (features: org.apache.spark.ml.linalg.Vector)

在定义数据类型完成后，即可将数据读入RDD[model_instance]的结构中，并通过RDD的隐式转换.toDF()方法完成RDD到DataFrame的转换：

val rawData = sc.textFile("file:///home/hduser/iris.data")
val df = rawData.map(
    line =>
      { model_instance( Vectors.dense(line.split(",").filter(p => p.matches("\\d*(\\.?)\\d*"))
      .map(_.toDouble)) )}).toDF()

与MLlib版的教程类似，我们使用了filter算子，过滤掉类标签，正则表达式\\d*(\\.?)\\d*可以用于匹配实数类型的数字，\\d*使用了*限定符，表示匹配0次或多次的数字字符，\\.?使用了?限定符，表示匹配0次或1次的小数点。

在得到数据后，我们即可通过ML包的固有流程：创建Estimator并调用其fit()方法来生成相应的Transformer对象，很显然，在这里KMeans类是Estimator，而用于保存训练后模型的KMeansModel类则属于Transformer：

val kmeansmodel = new KMeans().
      setK(3).
      setFeaturesCol("features"<

最低0.47元/天解锁文章

月亮与六便士丶

关注

1
点赞
踩
7

收藏

觉得还不错? 一键收藏
0
评论
Spark ML - 聚类算法

http://ihoge.cn/2018/ML2.htmlSpark ML - 聚类算法1.KMeans快速聚类首先到UR需要的包：import org.apache.spark.ml.clustering.{KMeans,KMeansModel}import org.apache.spark.ml.linalg.Vectors开启RDD的隐式转换：imp...
复制链接

扫一扫

专栏目录