【机器学习】聚类算法全解析：K-Means、层次聚类、DBSCAN在市场细分的应用

最新推荐文章于 2025-04-23 23:58:56 发布

吴师兄大模型

最新推荐文章于 2025-04-23 23:58:56 发布

阅读量1.2k

点赞数 36

分类专栏： 0基础实现机器学习入门到精通文章标签：机器学习算法聚类 kmeans 人工智能深度学习 pytorch

本文链接：https://blog.csdn.net/Kiradzy/article/details/146461509

版权

0基础实现机器学习入门到精通专栏收录该内容

38 篇文章

订阅专栏

Langchain系列文章目录

01-玩转LangChain：从模型调用到Prompt模板与输出解析的完整指南
 02-玩转 LangChain Memory 模块：四种记忆类型详解及应用场景全覆盖
 03-全面掌握 LangChain：从核心链条构建到动态任务分配的实战指南
 04-玩转 LangChain：从文档加载到高效问答系统构建的全程实战
 05-玩转 LangChain：深度评估问答系统的三种高效方法（示例生成、手动评估与LLM辅助评估）
06-从 0 到 1 掌握 LangChain Agents：自定义工具 + LLM 打造智能工作流！
07-【深度解析】从GPT-1到GPT-4：ChatGPT背后的核心原理全揭秘

机器学习系列文章目录

01-什么是机器学习？从零基础到自动驾驶案例全解析
 02-从过拟合到强化学习：机器学习核心知识全解析
 03-从零精通机器学习：线性回归入门
 04-逻辑回归 vs. 线性回归：一文搞懂两者的区别与应用
 05-决策树算法全解析：从零基础到Titanic实战，一文搞定机器学习经典模型
 06-集成学习与随机森林：从理论到实践的全面解析
 07-支持向量机（SVM）：从入门到精通的机器学习利器
 08-【机器学习】KNN算法入门：从零到电影推荐实战
 09-【机器学习】朴素贝叶斯入门：从零到垃圾邮件过滤实战
10-【机器学习】聚类算法全解析：K-Means、层次聚类、DBSCAN在市场细分的应用

前言

在机器学习的世界中，聚类算法是无监督学习的核心技术之一。它能在没有标签的数据中发现隐藏的模式和结构，帮助我们将数据分组。无论是电商平台根据客户行为划分群体，还是社交媒体分析用户兴趣，聚类算法都无处不在。本文将带你走进三种主流聚类算法——K-Means、层次聚类和DBSCAN，深入解析它们的原理、步骤和优缺点，并通过市场细分中的客户群体划分案例，展示它们的实际应用。无论你是初学者还是进阶开发者，这篇文章都能让你有所收获！

一、聚类算法概述

聚类算法是无监督学习的重要分支，旨在将数据自动分组。本节将为你打下基础，了解聚类的定义、与分类的区别以及应用场景。

1.1 什么是聚类？

聚类（Clustering）是一种将数据集划分为若干组（称为“簇”）的方法。同一簇内的数据点相似度高，不同簇间的数据点相似度低。简单来说，聚类就像是把一堆杂乱的物品按相似性整理成不同的堆。

1.1.1 聚类的核心目标

发现数据中的自然分组。
无需人工标注，完全依赖数据本身的特征。

1.1.2 一个直观例子

想象你有一堆水果，想按种类整理，但没有标签告诉你哪些是苹果，哪些是香蕉。聚类算法可以根据颜色、大小等特征自动把它们分好。

1.2 聚类与分类的区别

初学者常把聚类和分类混淆，以下是它们的区别：

特性	聚类（Clustering）	分类（Classification）
学习类型	无监督学习	监督学习
是否需要标签	不需要	需要
目标	发现数据中的分组	根据已有标签预测新数据的类别

简单来说，分类是“教机器认东西”，而聚类是“让机器自己找规律”。

1.3 聚类算法的应用场景

聚类在现实生活中应用广泛，以下是几个例子：

市场细分：根据客户购买行为划分群体，制定个性化营销策略。
图像分割：将图像像素分组，用于物体识别。
异常检测：识别异常数据，如网络攻击或设备故障。

二、K-Means算法

K-Means是最简单、最常用的聚类算法之一，适合初学者入门。本节将详细讲解其原理、步骤及在市场细分中的应用。

2.1 K-Means算法原理

K-Means的目标是将数据分成K个簇，使得每个数据点到其所属簇中心的距离之和最小。

2.1.1 基本思想

随机选K个点作为初始簇中心。
将每个数据点分配到最近的簇中心。
更新簇中心为簇内数据点的均值。
重复分配和更新，直到簇中心不再变化。

2.1.2 距离度量

K-Means通常用欧几里得距离计算数据点与簇中心的距离：
$\sqrt{\sum_{i=1}^{n} (x_i - y_i)^2} ]$

2.2 K-Means算法的步骤

以下是K-Means的具体操作流程：

初始化：选择K个初始簇中心（可随机选取）。
分配：将每个数据点分配到距离最近的簇中心。
更新：计算每个簇的均值，作为新的簇中心。
收敛：若簇中心稳定或达到最大迭代次数，则结束。

2.2.1 代码示例

用Python和Scikit-Learn实现K-Means：

from sklearn.cluster import KMeans
import numpy as np

# 生成示例数据
X = np.array([[1, 2], [1, 4], [1, 0], [10, 2], [10, 4], [10, 0]])

# 创建K-Means模型，K=2
kmeans = KMeans(n_clusters=2, random_state=0).fit(X)

# 输出结果
print("簇中心：\n", kmeans.cluster_centers_)
print("簇标签：", kmeans.labels_)

关键代码解释：

n_clusters=2：设置簇数为2。
fit(X)：训练模型并聚类。
cluster_centers_：获取簇中心坐标。
labels_：每个数据点的簇标签。

2.3 K-Means算法的优缺点

2.3.1 优点

简单易懂，易于实现。
计算效率高，适合大数据集。
收敛速度快。

2.3.2 缺点

需要预先指定K值，K的选择不易确定。
对初始簇中心敏感，可能收敛到局部最优。
只适合球状簇，对复杂形状效果差。

2.3.3 常见问题及解决方案

如何选择K值？
使用肘部法则：绘制簇内误差平方和（SSE）与K的关系图，找拐点。
初始中心不佳怎么办？
使用K-Means++优化初始中心选择。

2.4 K-Means在市场细分中的应用

K-Means在市场细分中可根据客户特征（如消费额、购买频率）划分群体。

2.4.1 应用案例

一家电商公司想根据客户年度消费额和购物频率分组：

数据准备：收集客户数据并标准化。
选择K值：用肘部法则确定K=3（高价值、潜力、低价值客户）。
聚类：应用K-Means分组。
结果分析：针对不同群体制定营销策略。

2.4.2 可视化

三、层次聚类

层次聚类通过构建树状结构来分组，适合需要层次关系的场景。

3.1 层次聚类的原理

层次聚类通过不断合并或分裂簇，形成一个树状图（Dendrogram）。

3.1.1 聚合型（自底向上）

初始每个数据点是一个簇，逐步合并相似簇，直到所有点归为一个簇。

3.1.2 分裂型（自顶向下）

初始所有数据为一个簇，逐步分裂，直到每个点独立。

3.2 层次聚类的类型

3.2.1 聚合型层次聚类

单链接：簇间最近点的距离。
全链接：簇间最远点的距离。
平均链接：簇间所有点距离的平均值。

3.2.2 分裂型层次聚类

较少使用，因计算复杂。

3.3 层次聚类的优缺点

3.3.1 优点

无需指定簇数，可通过树状图选择。
可发现任意形状的簇。
提供层次视图，便于理解数据结构。

3.3.2 缺点

计算复杂度高（O(n³)），不适合大数据。
对噪声敏感。

3.3.3 常见问题及解决方案

如何确定簇数？
在树状图中选择合适的切割高度。

3.4 层次聚类在市场细分中的应用

层次聚类可揭示客户群体的层次结构。

3.4.1 应用案例

零售公司根据客户年龄和收入分组：

数据准备：标准化数据。
聚类：用聚合型层次聚类生成树状图。
选择层次：根据业务需求切分簇。
分析：制定策略。

3.4.2 可视化

树状图示例（伪代码）：

四、DBSCAN算法

DBSCAN基于密度聚类，能发现任意形状的簇并处理噪声。

4.1 DBSCAN算法原理

DBSCAN通过数据点的密度分组，核心概念包括：

ε-邻域：半径ε内的区域。
核心点：邻域内至少有MinPts个点。
边界点：邻近核心点但非核心。
噪声点：不属于任何簇。

4.1.1 聚类规则

核心点密度相连形成簇。
边界点归属最近的核心点簇。
噪声点被排除。

4.2 DBSCAN算法的步骤

设置参数：选择ε和MinPts。
找核心点：计算每个点的ε-邻域点数。
建簇：从核心点扩展，连接密度相连的点。
标记噪声：未分组的点为噪声。

4.2.1 代码示例

from sklearn.cluster import DBSCAN
import numpy as np

# 示例数据
X = np.array([[1, 2], [2, 2], [2, 3], [8, 7], [8, 8], [25, 80]])

# 创建DBSCAN模型
db = DBSCAN(eps=3, min_samples=2).fit(X)

# 输出结果
print("簇标签：", db.labels_)  # -1表示噪声