从0开始学pyspark（十）：使用pyspark.ml.clustering模块对商场顾客聚类

最新推荐文章于 2024-08-01 17:39:08 发布

泛泛之素

最新推荐文章于 2024-08-01 17:39:08 发布

阅读量8.8k

点赞数 5

分类专栏： pyspark 文章标签： pyspark clustering 聚类商城客户聚类

本文链接：https://blog.csdn.net/tonydz0523/article/details/84144748

版权

本文介绍如何使用pyspark.ml模块对商场顾客数据进行聚类分析，包括KMeans、BisectingKMeans和GaussianMixture三种方法。通过数据准备、模型训练和评估，探讨不同聚类算法在客户细分中的应用。

摘要由CSDN通过智能技术生成

数据下载：

数据为kaggle上的关于商场客户的数据，地址：https://www.kaggle.com/vjchoudhary7/customer-segmentation-tutorial-in-python

数据准备：

数据集很小，四个特征值：性别，年龄，收入能力，消费能力，这里我们用收入能力和消费能力两项对客户进行聚类处理

from pyspark.sql import SparkSession
spark = SparkSession.builder.master('local[1]').appName('learn_cluster').getOrCreate()
# 导入数据
df = spark.read.csv('file:///home/ffzs/python-projects/learn_spark/Mall_Customers.csv', header=True, inferSchema=True)
# 更换列名
df = df.withColumnRenamed('Annual Income (k$)', 'Income').withColumnRenamed('Spending Score (1-100)', 'Spend')
# 看下数据
df.show(3)

+----------+------+---+------+-----+
|CustomerID|Gender|Age|Income|Spend|
+----------+------+---+------+-----+
|         1|  Male