使用pyspark进行机器学习（聚类问题）

最新推荐文章于 2024-05-22 18:31:24 发布

littlely_ll

最新推荐文章于 2024-05-22 18:31:24 发布

阅读量6.5k

点赞数 4

分类专栏： pyspark 机器学习文章标签：机器学习 pyspark Python 聚类

本文链接：https://blog.csdn.net/littlely_ll/article/details/78155192

版权

BisectingKMeansclass pyspark.ml.clustering.BisectingKMeans(self, featuresCol="features", predictionCol="prediction", maxIter=20, seed=None, k=4, minDivisibleClusterSize=1.0)参数解释maxIter: 最大迭代次数K：聚类簇数m

摘要由CSDN通过智能技术生成

使用pyspark进行机器学习（分类问题）
使用pyspark进行机器学习（回归问题）

BisectingKMeans

class pyspark.ml.clustering.BisectingKMeans(self, featuresCol="features", predictionCol="prediction", maxIter=20, seed=None, k=4, minDivisibleClusterSize=1.0)

参数解释

maxIter: 最大迭代次数
K：聚类簇数
minDivisibleClusterSize: 聚类的最少数据点数(>1)或比例(0-1之间)
fit(dataset, params=None)方法

拟合后的模型拥有的方法和属性

clusterCenters(): 获取聚类中心，numpy array类型
computeCost()：计算点与其中心的平方和距离
Transform()：对预测数据进行预测
hasSummary:训练模型是否有summary
Summary：获取summary
拥有对参数的getter和setter方法

Summary拥有的属性

cluster：预测的聚类中心
clusterSizes：每个聚类的大小
K：聚类个数
Predictions：由模型的transforn方法产生的预测数据框

代码

from pyspark.ml.linalg import Vectors
From pyspark.ml.clustering import BisectingKMeans

data = [(Vectors.dense([0.0, 0.0]),), (Vectors.dense([1.0, 1.0]),),(Vectors.dense([9.0, 8.0]),), (Vectors.dense([8.0, 9.0]),)]
df = spark.createDataFrame(data, ["features"])
bkm = BisectingKMeans(k=2, minDivisibleClusterSize=1.0)
model = bkm.fit(df)
centers =

最低0.47元/天解锁文章

littlely_ll

关注

4
点赞
踩
23

收藏

觉得还不错? 一键收藏
0
评论
使用pyspark进行机器学习（聚类问题）

BisectingKMeansclass pyspark.ml.clustering.BisectingKMeans(self, featuresCol="features", predictionCol="prediction", maxIter=20, seed=None, k=4, minDivisibleClusterSize=1.0)参数解释maxIter: 最大迭代次数K：聚类簇数m
复制链接

扫一扫