【机器学习】K-means算法详解

酒酿小圆子～

于 2024-05-18 12:25:51 发布

阅读量172

点赞数

分类专栏：机器学习 & 深度学习文章标签：机器学习算法 kmeans

版权

91 篇文章 14 订阅

订阅专栏

一、算法简介

K-means算法是用来解决著名的聚类问题的最简单的非监督学习算法之一，是很典型的基于距离的聚类算法。该算法采用距离作为相似性的评价指标。即认为两个对象的距离越近，其相似度就越大。该算法认为簇是由距离靠近的对象组成的，因此把得到紧凑且独立的簇作为最终目标。

k-means算法特点在于：同一聚类的簇内的对象相似度较高；而不同聚类的簇内的对象相似度较小。

从所有的观测实例中随机取出k个观测点，作为聚类的中心点；然后遍历奇遇的观测点找到各自距离最近的聚类中心点，并将其加入该聚类中。这样，我们便有了一个初始的聚类结果，这是一次迭代过程。
每个聚类中心都至少有一个观测实例，这样，我们便可以求出每个聚类的中心点，作为新的聚类中心（该聚类中所有实例的均值），然后再遍历其他所有的观测点，找到距离其最近的中心点，并加入到该聚类中。
如此重复步骤2，直到前后两次迭代得到的聚类中心点不再发生变化为止。

该算法旨在最小化一个目标函数——误差平方函数（所有的观测点与其中心点的距离之和）。

在这里插入图片描述

经过实验可见如下的迭代过程：
在这里插入图片描述

K-means算法的特点是：

多次运行。多次运行，每次选择不同的初始质心，聚类效果和数据集、k有关，不一定达到好的效果
取样并使用层次聚类技术对它聚类，从层次聚类中提取k个簇，并用这些簇的质心作为初始质心（在下列情况下有效：样本相对小、k相对与样本较小）
选择分离的质心：即随机选取第一个质心，后面的质心选取应和已经选取的质心距离最远
可能选在非稠密区
后处理：对聚类结果进行处理
使用二分 K-means,它用于对初始化问题不敏感的情况。
K-means 的变种，可以产生划分或层次聚类
先将所有的点分裂两个簇，再选择一个继续分裂，直到产生k个簇。
增量更新质心。可以在点到簇的每次指派之后，增量地更新质心，而不是在所有的点都指派到簇中之后才更新族质心。

在这里插入图片描述

上面介绍的k-means 算法是一种非常简单并且使用广泛的聚类算法，但是存在如下局限性：

接下来针对 k-means 的缺陷，总结对k-means的改进。从初始中心点的选取、离群点的检测与去除、相似性度量等几个方面进行概括、比较。

关注