基于产品的RFM模型的k-means聚类分析

佛系人僧

已于 2022-05-16 07:21:02 修改

阅读量2.7k

点赞数 3

分类专栏：产品 pandas machine learning 文章标签： python 数据挖掘数据分析

于 2022-01-26 17:04:03 首次发布

本文链接：https://blog.csdn.net/foxirensheng/article/details/122704512

版权

pandas 同时被 3 个专栏收录

12 篇文章 0 订阅

订阅专栏

machine learning

12 篇文章 1 订阅

订阅专栏

产品

7 篇文章 0 订阅

订阅专栏

首先我们可以看看数据集的数据形态：
在这里插入图片描述
导入rfm数据，查看数据的统计学参数

df =pd.read_csv('rfm.csv')
df.describe()

在这里插入图片描述
在实施Kmeans聚类之前，我们必须检查这些关键k-means假设
-变量对称分布(不倾斜)
-具有相同平均值的变量
-方差相同的变量

从这个表中，我们发现了这个问题:均值和方差不相等
解决:使用scikit-learn库中的标量来缩放变量

#绘制RFM值的分布
f,ax = plt.subplots(figsize=(10, 12))
plt.subplot(3, 1, 1); sns.distplot(rfm.Recency, label = 'Recency')
plt.subplot(3, 1, 2); sns.distplot(rfm.Frequency, label = 'Frequency')
plt.subplot(3, 1, 3); sns.distplot(rfm.MonetaryValue, label = 'Monetary Value')
plt.style.use('fivethirtyeight')
plt.tight_layout()
plt.show()

在这里插入图片描述

还有另一个问题:变量的不对称分布(数据倾斜)
解决方案:对数转换(仅为正值)将管理倾斜程度

我们使用这些结构化预处理步骤的顺序
1。取消数据倾斜-log转换的倾斜
2。标准化到相同的平均值
3。比例化到相同的标准偏差
4。存储为单独的数组用于分簇

#解决数据倾斜，log transfrom
rfm_log = rfm.apply(np.log, axis = 1).round(3)

# 查看分布
f,ax = plt.subplots(figsize=(10, 12))
plt.subplot(3, 1, 1); sns.distplot(rfm_log.Recency, label = 'Recency')
plt.subplot(3, 1, 2); sns.distplot(rfm_log.Frequency, label = 'Frequency')
plt.subplot(3, 1, 3); sns.distplot(rfm_log.MonetaryValue, label = 'Monetary Value')
plt.style.use('fivethirtyeight')
plt.tight_layout()
plt.show()

在这里插入图片描述

在这里插入图片描述
接下来运用kmeans聚类人群

数据预处理
选择一些集群
对预处理数据运行k-means聚类
分析每个集群的平均RFM值

数据预处理

#标准化变量
from sklearn.preprocessing import StandardScaler
scaler = StandardScaler()
scaler.fit(rfm_log)
#存储导独立的数组里
rfm_normalized= scaler.transform(rfm_log)

选择合适的簇值

肘部判定方法
绘制群集数量与群集内的平方和误差(SSE) -从每个数据点到其群集中心的平方距离的和
在情节中找出一个“肘部”
肘部——代表“最佳”簇数的点

from sklearn.cluster import KMeans

#获取最佳的kmeans
ks = range(1,8)
inertias=[]
for k in ks :
    # Create a KMeans clusters
    kc = KMeans(n_clusters=k,random_state=1)
    kc.fit(rfm_normalized)
    inertias.append(kc.inertia_)

# Plot ks vs inertias
f, ax = plt.subplots(figsize=(15, 8))
plt.plot(ks, inertias, '-o')
plt.xlabel('Number of clusters, k')
plt.ylabel('Inertia')
plt.xticks(ks)
plt.style.use('ggplot')
plt.title('find the best clustering ?')
plt.show()

在这里插入图片描述
如图，我们在图中选择一个“肘”，在这里选择斜率开始缓慢下降的点，故选择3作为kmeans的簇

# 创建kmeans类
kc = KMeans(n_clusters= 3, random_state=1)
kc.fit(rfm_normalized)

#创建一个聚类后的标签列
cluster_labels = kc.labels_

#增加新列
rfm_k3 = rfm.assign(K_Cluster = cluster_labels)

#计算每个簇下的R F M值的平均值
rfm_rfm_k3.groupby('K_Cluster').agg({'Recency': 'mean','Frequency': 'mean','MonetaryValue': ['mean', 'count'],}).round(0)

在这里插入图片描述

佛系人僧

关注

3
点赞
踩
18

收藏

觉得还不错? 一键收藏
2
评论
基于产品的RFM模型的k-means聚类分析

首先我们可以看看数据集的数据形态：导入rfm数据，查看数据的统计学参数df =pd.read_csv('rfm.csv')df.describe()在实施Kmeans聚类之前，我们必须检查这些关键k-means假设-变量对称分布(不倾斜)-具有相同平均值的变量-方差相同的变量从这个表中，我们发现了这个问题:均值和方差不相等解决:使用scikit-learn库中的标量来缩放变量#绘制RFM值的分布f,ax = plt.subplots(figsize=(10, 12))plt.s
复制链接

扫一扫