基于Python的人工智能应用案例系列（3）：消费者聚类

会飞的Anthony

于 2024-09-18 07:45:00 发布

阅读量191

点赞数 12

分类专栏：人工智能信息系统文章标签：人工智能

本文链接：https://blog.csdn.net/ljd939952281/article/details/142150717

版权

人工智能同时被 2 个专栏收录

134 篇文章 2 订阅

订阅专栏

信息系统

101 篇文章 0 订阅

订阅专栏

在本篇文章中，我们将探讨如何使用聚类算法进行消费者聚类。通过这种方法，商家可以根据顾客的行为和属性将其分成不同的群体，以便制定差异化的市场策略。我们将使用Python中的K-Means聚类，并通过肘部法则来确定最优的簇数。

案例背景

我们使用的数据集来自一家购物中心，数据中的每条记录代表一名消费者，目标是根据消费者的年龄、年收入和消费得分，将其划分为不同的群体（即聚类）。该数据集的特征包括：

CustomerID：唯一顾客ID
Gender：性别
Age：年龄
Annual Income：年收入
Spending Score：根据顾客的消费行为和购物中心对其消费的评估得分

我们的目标是通过这些特征对顾客进行聚类，便于商家了解不同消费者群体的特征，从而制定相应的营销策略。

1. 导入数据与必要的库

首先，我们需要导入Python的相关库，并加载顾客数据集。

# 加载库
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

# 关闭警告
import warnings
warnings.filterwarnings('ignore')

# 加载数据集
df = pd.read_csv("data/Mall_Customers.csv")

# 查看数据
df.head()

我们将CustomerID列删除，因为它对聚类没有实际意义。

# 删除CustomerID列
df = df.drop(columns=['CustomerID'])

2. 数据清理

在处理数据之前，我们需要确保数据没有缺失值，并检查是否有任何不合理的数据输入。

# 检查缺失值
df.isna().sum()

# 检查每列的唯一值
for col in df.columns:
    print(f"{col}:", df[col].unique())

幸运的是，数据中没有缺失值。接下来，我们将对Gender进行标签编码，将其转换为数值类型。

from sklearn.preprocessing import LabelEncoder

le = LabelEncoder()
df["Gender"] = le.fit_transform(df["Gender"])
print(df["Gender"].unique())

3. 数据探索性分析（EDA）

通过绘制数据的分布图，我们可以直观地了解数据集中的模式和可能存在的聚类特征。

# 绘制pair plot
sns.pairplot(df)
plt.show()

通过可视化，我们可以观察到以下几点：

顾客年龄主要集中在30-35岁，较年长者较少光顾。
消费得分集中在50左右，大部分顾客收入低于100k美元。
Spending Score和Annual Income显示出一些潜在的聚类特征。

基于以上观察，我们决定删除Gender列，因为性别对聚类的贡献不明显。

# 删除Gender列
df = df.drop(columns=['Gender'])

4. 模型构建

在无监督学习中，数据集通常不需要划分为训练集和测试集。我们将使用K-Means聚类算法，并通过肘部法则来确定最优的簇数。

设置特征矩阵

我们将数据转换为NumPy数组，以便用于K-Means聚类算法。

X = df.to_numpy()
print(X.shape)

寻找最优的簇数

通过肘部法则，我们可以选择合适的簇数k，即选择使误差平方和（SSD）变化不再显著的点。

from sklearn.cluster import KMeans

ssd = []
for k in range(2, 20):
    kmeans = KMeans(n_clusters=k, n_init="auto")
    kmeans.fit(X)
    ssd.append(kmeans.inertia_)

# 绘制肘部法则图
plt.figure(figsize=(10, 3))
plt.plot(range(2, 20), ssd)
plt.xticks(range(2, 20))
plt.ylabel("SSD")
plt.xlabel("K")
plt.grid(True)
plt.title('Elbow curve')
plt.show()

通过肘部法则图，我们可以看到k=5时效果最佳，因此我们选择5个簇来进行聚类。

进行聚类

我们使用KMeans算法进行聚类，并获取每个客户所属的簇标签。

k = 5
model = KMeans(n_clusters=k)
model.fit(X)

# 聚类结果
yhat = model.labels_

5. 结果可视化

我们通过三维图对聚类结果进行可视化，展示不同簇的客户分布情况。

k = 5
model = KMeans(n_clusters=k)
model.fit(X)

# 聚类结果
yhat = model.labels_

通过三维可视化，我们可以直观地看到不同簇的消费者分布情况。这为我们进一步分析不同簇的客户特征提供了依据。

6. 聚类应用场景

聚类算法在许多领域中有着广泛的应用，特别是在市场营销中，可以帮助企业做出更有针对性的决策：

推荐系统：根据相似的客户行为，推荐相关的产品或服务。
异常检测：用于检测异常行为，例如信用卡欺诈。
市场细分：帮助企业根据不同的客户群体制定差异化的市场策略。

结论

在本篇文章中，我们使用K-Means聚类算法对消费者进行了聚类分析。通过对客户的年龄、年收入和消费得分的分析，我们成功地将客户划分为不同的群体。这种聚类分析为企业制定营销策略提供了重要的支持。无监督学习中的聚类算法不仅适用于消费者分析，还能应用于多个其他领域。

希望这篇文章帮助您更好地理解聚类算法及其应用。如果有任何问题或需要进一步修改的地方，欢迎随时联系！

如果你觉得这篇博文对你有帮助，请点赞、收藏、关注我，并且可以打赏支持我！

欢迎关注我的后续博文，我将分享更多关于人工智能、自然语言处理和计算机视觉的精彩内容。

谢谢大家的支持！