聚类分析入门：无监督学习的魅力

凭栏落花侧

于 2024-10-05 23:54:04 发布

阅读量333

点赞数 9

文章标签：学习数据分析信息可视化数据挖掘人工智能 python 机器学习

本文链接：https://blog.csdn.net/m0_67484548/article/details/142665359

版权

一、让数据自己说话

在机器学习的世界里，无监督学习就像是一位神秘的侦探，它不需要我们知道答案，就能让

数据自己揭露隐藏的规律。

今天，我们就来聊聊无监督学习中的佼佼者——聚类分析，看看它是如何施展魅力的。

二、什么是聚类分析？

聚类分析，简单来说，就是将一群没有标签的数据按照它们的相似性分成几个小组。

想象一下，如果你有一堆颜色各异的珠子，聚类分析就是帮你将这些珠子按照颜色分成几

堆。在这个过程中，计算机自己决定了如何分组，这就是它的魅力所在。

三、聚类分析的应用案例

1. 市场细分

一家电商企业想要了解顾客群体，通过聚类分析，可以将顾客分为不同的群体，从而针对不

同群体制定营销策略。

2. 图像识别

在图像处理领域，聚类分析可以帮助识别相似特征的图像，例如将一组图片中的猫和狗分

开。

四、走进聚类算法：手把手教你分析数据

下面，我们将通过一个简单的案例，使用Python的K均值算法来进行聚类分析。

1. 准备数据

假设我们有以下五个数据点：

import numpy as np

# 数据点

data = np.array([[1, 2], [1, 3], [2, 2], [10, 10], [10, 9]])

2. 应用K均值算法

我们将使用K均值算法将这些数据点分为两个类别。

from sklearn.cluster import KMeans

# 创建KMeans对象，指定聚类中心数量为2

kmeans = KMeans(n_clusters=2, random_state=0)

# 对数据进行聚类

kmeans.fit(data)

# 预测每个数据点的类别

labels = kmeans.predict(data)

# 输出聚类结果

print("聚类结果：", labels)

运行上述代码后，我们将得到以下输出：

聚类结果： [0 0 0 1 1]

这意味着前三个数据点被分到了类别0，后两个数据点被分到了类别1。

3. 分析聚类结果

通过聚类结果，我们可以看到数据点被合理地分成了两个群体。

在实际应用中，我们可以根据聚类结果来进一步分析数据特征，例如在市场细分案例中，我

们可以研究不同顾客群体的消费习惯。

热身结束，下面是一个稍微复杂一些的例子（客户细分）。使用聚类分析来识别不同类型的

客户特征，这是一个在商业分析中常见的应用。

假设我们是一家零售商，我们收集了客户的年度消费额、购物频率以及平均消费额的数据。

我们的目标是识别不同的客户群体，以便我们可以针对不同群体制定个性化的营销策略。

1. 准备数据

首先，我们需要生成一些模拟数据（因为实际上我没有数据）：

import numpy as np

import matplotlib.pyplot as plt

from sklearn.cluster import KMeans

# 生成模拟数据

np.random.seed(0)

data = np.random.rand(100, 3) * 100

# 假设数据有三列，分别代表年度消费额、购物频率和平均消费额

# 我们对这些数据进行一些处理，使其更加真实

data[:, 1] = np.log(data[:, 1] + 1)  # 对购物频率取对数，使其分布更均匀

data[:, 2] = np.log(data[:, 2] + 1)  # 对平均消费额取对数，使其分布更均匀

2. 应用K均值算法

接下来，我们使用K均值算法对数据进行聚类。

# 创建KMeans对象，这里我们假设有3个不同的客户群体

kmeans = KMeans(n_clusters=3, random_state=0)

# 对数据进行聚类

kmeans.fit(data)

# 预测每个数据点的类别

labels = kmeans.predict(data)

# 输出聚类中心

print("聚类中心：", kmeans.cluster_centers_)

3. 分析聚类结果

现在我们来分析聚类结果，将这些数据可视化。

# 可视化聚类结果

plt.scatter(data[:, 0], data[:, 1], c=labels, cmap='viridis', marker='o', edgecolor='k', s=50)

plt.scatter(kmeans.cluster_centers_[:, 0], kmeans.cluster_centers_[:, 1], s=250, marker='X',

c='red', edgecolor='k', label='Centroids')

plt.title('Customer Segmentation')

plt.xlabel('Annual Spending (in $)')

plt.ylabel('Log of Shopping Frequency')

plt.legend()

plt.show()

在这个图表中，每个点代表一个客户，不同的颜色代表不同的客户群体。

红色的“X”标记表示每个群体的聚类中心。

4. 客户群体特征分析

通过分析聚类中心，我们可以得到以下客户群体特征：

群体1（标记为0）：这些客户的年度消费额较低，购物频率也较低，可能是普通顾客。

群体2（标记为1）：这些客户的年度消费额较高，购物频率也较高，可能是忠实顾客。

群体3（标记为2）：这些客户的年度消费额中等，但购物频率很高，可能是频繁的小额消费

者。

5. 制定营销策略

基于上述分析，我们可以为每个群体制定不同的营销策略：

对于群体1，我们可以通过促销活动来吸引他们增加消费。

对于群体2，我们可以推出会员计划，提供积分和奖励，以保持他们的忠诚度。