聚类学习笔记--kmeans

最新推荐文章于 2023-02-20 17:42:22 发布

祈目

最新推荐文章于 2023-02-20 17:42:22 发布

阅读量1.8k

点赞数 1

分类专栏：聚类文章标签： kmeans 机器学习人工智能

本文链接：https://blog.csdn.net/arise_/article/details/120429471

版权

1 篇文章 1 订阅

订阅专栏

一、聚类基础

聚类(Clustering)是按照某个特定标准(如距离)把一个数据集分割成不同的类或簇，使得同一个簇内的数据对象的相似性尽可能大，同时不在同一个簇中的数据对象的差异性也尽可能地大。也即聚类后同一类的数据尽可能聚集到一起，不同类数据尽量分离。

在这里插入图片描述

在这里插入图片描述

K-means算法是初值敏感的，选择不同的初始值可能导致不同的簇划分规则。为了避免这种敏感性导致的最终结果异常性，可以采用初始化多套初始节点构造不同的分类规则，然后选择最优的构造规则。针对这点后面因此衍生了：二分K-Means算法、K-Means++算法、K-Means||算法、Canopy算法等。
初始点选择原则：
（1）k个点的距离尽可能远
（2）可以对数据先进行层次聚类，得到K个簇之后，从每个类簇中选择一个点，该点可以是该类簇的中心点，或者是距离类簇中心点最近的那个点。

手肘法的核心指标是SSE(sum of the squared errors，误差平方和)：

在这里插入图片描述

其中，Ci是第i个簇，p是Ci中的样本点，mi是Ci的质心（Ci中所有样本的均值），SSE是所有样本的聚类误差，代表了聚类效果的好坏。
手肘法的核心思想是：随着聚类数k的增大，样本划分会更加精细，每个簇的聚合程度会逐渐提高，那么误差平方和SSE自然会逐渐变小。
并且，当k小于真实聚类数时，由于k的增大会大幅增加每个簇的聚合程度，故SSE的下降幅度会很大，而当k到达真实聚类数时，再增加k所得到的聚合程度回报会迅速变小，所以SSE的下降幅度会骤减，然后随着k值的继续增大而趋于平缓，也就是说SSE和k的关系图是一个手肘的形状，而这个肘部对应的k值就是数据的真实聚类数。

该方法的核心指标是轮廓系数（Silhouette Coefficient），某个样本点Xi的轮廓系数定义如下：
在这里插入图片描述

其中，a是Xi与同簇的其他样本的平均距离，称为凝聚度，b是Xi与最近簇中所有样本的平均距离，称为分离度。而最近簇的定义是
其中p是某个簇Ck中的样本。事实上，简单点讲，就是用Xi到某个簇所有样本平均距离作为衡量该点到该簇的距离后，选择离Xi最近的一个簇作为最近簇。
求出所有样本的轮廓系数后再求平均值就得到了平均轮廓系数。平均轮廓系数的取值范围为[-1,1]，且簇内样本的距离越近，簇间样本距离越远，平均轮廓系数越大，聚类效果越好。那么，很自然地，平均轮廓系数最大的k便是最佳聚类数。

Calinski-Harabaz的分数S被定义为组间离散与组内离散的比率，该分值越大说明聚类效果越好。
在这里插入图片描述

其中 Bk 是组间离散矩阵， Wk 是组内离散矩阵:
N 为数据中的点数，Cq 为 cluster （簇） q 中的点集， cq 为 cluster（簇） q 的中心， ce为 E 的中心， nq 为 cluster（簇） q 中的点数。
也就是说，类别内部数据的协方差越小越好，类别之间的协方差越大越好，这样的Calinski-Harabasz分数会高。
得分计算很快

在这里插入图片描述

Rand index、Mutual Information based scores、Homogeneity, completeness and V-measure、Fowlkes-Mallows scores、Fowlkes-Mallows scores等方法需要真实值。

K-means算法在迭代的过程中使用所有点的均值作为新的质点(中心点)，如果簇中存在异常点，将导致均值偏差比较严重。比如一个簇中有2、4、6、8、100五个数据，那么新的质点为24，显然这个质点离绝大多数点都比较远；在当前情况下，使用中位数6可能比使用均值的想法更好，使用中位数的聚类方式叫做K-Mediods聚类(K中值聚类)。