spark官方文档学习---聚类

最新推荐文章于 2024-05-30 08:42:49 发布

leemusk

最新推荐文章于 2024-05-30 08:42:49 发布

阅读量298

点赞数

分类专栏：机器学习 # spark 算法

本文链接：https://blog.csdn.net/leemusk/article/details/103194934

版权

聚类

官方文档

K-means

k均值是最常用的聚类算法之一，它将数据点聚集成预定数量的聚类。 MLlib实现包括称为kmeans ||的k-means ++方法的并行变体。
Means被实现为一个估计器，并生成一个KMeansModel作为基础模型。
在这里插入图片描述

from pyspark.ml.clustering import KMeans
from pyspark.ml.evaluation import ClusteringEvaluator

# Loads data.
dataset = spark.read.format("libsvm").load("data/mllib/sample_kmeans_data.txt")

# Trains a k-means model.
kmeans = KMeans().setK(2).setSeed(1)
model = kmeans.fit(dataset)

# Make predictions
predictions = model.transform(dataset)

# Evaluate clustering by computing Silhouette score
evaluator = ClusteringEvaluator()

silhouette =

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

leemusk

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
spark官方文档学习---聚类

聚类官方文档K-meansk均值是最常用的聚类算法之一，它将数据点聚集成预定数量的聚类。 MLlib实现包括称为kmeans ||的k-means ++方法的并行变体。Means被实现为一个估计器，并生成一个KMeansModel作为基础模型。from pyspark.ml.clustering import KMeansfrom pyspark.ml.evaluation impo...
复制链接

扫一扫