数据处理和分析之数据聚类（3）：均值漂移与K-Means比较

kkchenjj

已于 2024-07-19 09:37:47 修改

阅读量1k

点赞数 14

分类专栏：数据挖掘文章标签：聚类均值算法 kmeans

于 2024-07-19 09:34:34 首次发布

本文链接：https://blog.csdn.net/weixin_42749425/article/details/140540333

版权

数据处理和分析之数据聚类：均值漂移与K-Means比较

在这里插入图片描述

数据聚类简介

1. 聚类算法概述

聚类算法是一种无监督学习方法，用于将数据集中的样本分组到不同的簇中，使得同一簇内的样本彼此相似，而不同簇的样本差异较大。聚类的目标是发现数据的内在结构，从而对数据进行分类或分组。常见的聚类算法包括K-Means、层次聚类、DBSCAN、均值漂移等。

1.1 K-Means算法

K-Means是最广泛使用的聚类算法之一，其核心思想是通过迭代过程将数据集划分为K个簇。算法步骤如下：

随机选择K个初始质心。
将每个数据点分配给最近的质心，形成K个簇。
计算每个簇的新质心。
重复步骤2和3，直到质心不再发生显著变化或达到最大迭代次数。

K-Means代码示例

import numpy as np
from sklearn.cluster import KMeans
from sklearn.datasets import make_blobs

# 生成数据
X, _ = make_blobs(n_samples=300, centers=4, random_state=0, cluster_std=0.60)

# 应用K-Means算法
kmeans = KMeans(n_clusters=4)
kmeans.fit(X)

# 预测簇标签
labels = kmeans.predict(X)

# 输出质心
centroids = kmeans.cluster_centers_

1.2 均值漂移算法

均值漂移算法是一种基于密度的聚类方法，它不需要预先指定簇的数量。算法通过迭代地将每个数据点移动到其邻域的平均值位置，直到所有点都收敛到簇的中心。均值漂移算法能够找到任意形状的簇，但计算成本相对较高。

均值漂移代码示例

from sklearn.cluster import MeanShift
from sklearn.datasets import make_moons

# 生成月牙形数据
X, _ = make_moons(n_samples=200, noise=0.05)

# 应用均值漂移算法
mean_shift = MeanShift(bandwidth=0.15, bin_seeding=True)
mean_shift.fit(X)

# 预测簇标签
labels = mean_shift.labels_

# 输出簇中心
cluster_centers = mean_shift.cluster_centers_

2. 聚类算法的应用场景

聚类算法在多个领域都有广泛的应用，包括但不限于：

市场细分：根据顾客的购买行为或偏好将市场划分为不同的细分市场。
图像分割：在图像处理中，聚类可以用于将图像分割成不同的区域，如背景和前景。
异常检测：通过识别与大多数数据点显著不同的簇，可以检测出异常值。
推荐系统：聚类用户或物品，以提供更个性化的推荐。
生物学：在基因表达数据分析中，聚类可以帮助识别具有相似表达模式的基因组。

2.1 实例：市场细分

假设我们有一家电商公司，想要根据用户的购买历史和浏览行为将用户分为不同的细分市场，以便进行更精准的营销策略。我们可以使用聚类算法来分析用户数据，识别出具有相似行为的用户群。

数据样例

# 用户数据样例
user_data = np.array([
    [10, 5],  # 用户1：购买次数10，浏览次数5
    [1, 2],   # 用户2：购买次数1，浏览次数2
    [8, 4],   # 用户3：购买次数8，浏览次数4
    [2, 1],   # 用户4：购买次数2，浏览次数1
    [9, 3]    # 用户5：购买次数9，浏览次数3
])

聚类分析

# 使用K-Means进行市场细分
kmeans = KMeans(n_clusters=2)
kmeans.fit(user_data)

# 输出细分市场标签
market_segments = kmeans.labels_

通过上述代码，我们可以将用户数据分为两个细分市场，进一步分析每个市场的需求和行为特征，从而制定更有效的营销策略。

以上内容涵盖了数据聚类的基本概念，K-Means和均值漂移算法的原理及应用，以及聚类算法在市场细分场景中的具体实现。通过理解和应用这些算法，可以有效地对数据进行分组，发现数据的潜在结构，为决策提供支持。

数据处理和分析之数据聚类：均值漂移算法详解

3. 均值漂移算法原理

均值漂移（Mean Shift）是一种基于密度的聚类算法，它通过迭代地将数据点移动到其邻域内的平均位置来寻找数据的高密度区域。均值漂移算法的核心思想是利用数据点的局部密度估计来确定数据点的移动方向，最终达到数据密度的局部极大值点，即聚类中心。

3.1 密度估计

均值漂移算法使用核密度估计（Kernel Density Estimation, KDE）来计算数据点的密度。核函数（Kernel Function）通常是一个高斯函数，用于衡量数据点与邻域内其他点的相似度。核函数的带宽（Bandwidth）决定了邻域的大小，从而影响密度估计的精度。

3.2 移动方向

对于每个数据点，均值漂移算法计算其邻域内所有点的加权平均位置，权重由核函数决定。数据点将向这个平均位置移动，直到达到一个稳定点，即密度不再增加的位置。

4. 均值漂移算法步骤

初始化：选择一个数据点作为当前点。
计算邻域：使用核函数确定当前点的邻域范围。
计算均值：计算邻域内所有点的加权平均位置。
更新位置：将当前点移动到计算出的均值位置。
迭代：重复步骤2至4，直到当前点的位置不再显著变化。

5. 均值漂移算法的优缺点

5.1 优点

无需预先指定聚类数量：均值漂移算法能够自动确定聚类的数量，这在K-Means算法中是需要预先设定的。
适应复杂形状的聚类：由于其基于密度的特性，均值漂移算法能够处理非球形的聚类，而K-Means算法在处理非球形聚类时效果不佳。

5.2 缺点

计算复杂度高：均值漂移算法需要对每个数据点进行多次迭代，计算量较大，尤其是在大数据集上。
参数选择困难：核函数的带宽选择对算法性能有显著影响，但选择合适的带宽并不直观。

6. 均值漂移算法与K-Means比较

6.1 数据集准备

假设我们有以下数据集，包含两个非球形的聚类：

import numpy as np
import matplotlib.pyplot as plt
from sklearn.datasets import make_moons

# 生成月牙形数据集
X, _ = make_moons(n_samples=300, noise=0.05)

# 可视化数据
plt.scatter(X[:,0], X[:,1])
plt.title('月牙形数据集')
plt.show()

6.2 均值漂移算法应用

接下来，我们使用scikit-learn库中的MeanShift类来应用均值漂移算法：

from sklearn.cluster import MeanShift

# 创建均值漂移模型
ms = MeanShift(bandwidth=2)

# 训练模型
ms.fit(X)

# 预测聚类标签
labels = ms.predict(X)

# 可视化聚类结果
plt.scatter(X[:,0], X[:,1], c=labels)
plt.scatter(ms.cluster_centers_[:,0], ms.cluster_centers_[:,1], c='red', marker='x')
plt.title('均值漂移聚类结果')
plt.show()

6.3 K-Means算法应用

对比之下，我们使用K-Means算法处理相同的数据集：

from sklearn.cluster import KMeans

# 创建K-Means模型，假设聚类数量为2
kmeans = KMeans(n_clusters=2)

# 训练模型
kmeans.fit(X)

# 预测聚类标签
kmeans_labels = kmeans.predict(X)

# 可视化聚类结果
plt.scatter(X[:,0], X[:,1], c=kmeans_labels)
plt.scatter(kmeans.cluster_centers_[:,0], kmeans.cluster_centers_[:,1], c='red', marker='x')
plt.title('K-Means聚类结果')
plt.show()