K均值聚类分析

最新推荐文章于 2024-08-11 16:00:02 发布

阿猫和咸鱼

最新推荐文章于 2024-08-11 16:00:02 发布

阅读量6.4k

点赞数 1

分类专栏：数据分析文章标签：数据分析聚类分析 K均值

本文链接：https://blog.csdn.net/pdsjxxchina/article/details/90044056

版权

本文详细介绍了K均值聚类算法的基本过程、质心计算、距离度量方法（曼哈顿、欧几里得、闵可夫斯基）及性能评估指标（偏差平方和、轮廓系数）。此外，还讨论了二分K均值算法和K均值的优缺点，指出其在处理非球形、不同尺寸、离群点等问题上的局限性。

摘要由CSDN通过智能技术生成

K

均值算法，是一种最古老的，也是最广泛使用的聚类算法。
通常，

K

均值聚类应用于

n

维连续空间中的对象。从数学的角度讲，假定样本集（数据集）

D

包含

m

个样本（对象），每个样本均为

n

维向量，则

K

均值聚类将样本集

D

划分为

k

个互不相交的簇（

c l u s t e r

）。
例如，研究电信用户留存时，想知道哪些客户群容易流失，可以使用

K

均值聚类对用户群体进行划分。

一、基本K均值算法

1、算法的过程

首先，选择 $k$ 个对象作为初始的质心，其中 $k$ 是预先指定的参数，即所期望的 $c l u s t e r$ 的个数。初始质心的选取通常是随机的，当然这么做的聚类效果往往很一般。
其次，选取一个对象，计算对象到各个质心的距离，把对象分配给距离最近的质心。质心以及分配给其的对象就组成一个 $c l u s t e r$ 。
然后，根据现有的 $c l u s t e r$ ，计算 $c l u s t e r$ 的质心—— $c l u s t e r$ 内对象的平均值，并更新cluster的质心。
接着，不断的循环执行对象分配以及质点更新的步骤。
最后，当 $c l u s t e r$ 不再发生变化，或者等价地， $c l u s t e r$ 的质心不再发生变化时，终止循环，结束过程。

选择K个点作为初始质心;
repeat
	将每个点指派到最近的质心，形成K个cluster;
	重新计算每个cluster的质心;
until 质心不发生变化;

2、质心的计算

假设数据集包含 $n$ 个对象，每个对象对应一个 $2$ 维的线性空间，( $x_{c},y_{c}$ )为质心的坐标：
$x_{c}=\frac{1}{n}\sum_{i=1}^{n}x_{i}$

最低0.47元/天解锁文章

阿猫和咸鱼

关注

1
点赞
踩
31

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录