聚类简述

最新推荐文章于 2024-07-03 16:53:39 发布

Sophia_Dz

最新推荐文章于 2024-07-03 16:53:39 发布

阅读量6.6k

点赞数 1

分类专栏：聚类文章标签：聚类

本文链接：https://blog.csdn.net/facetosea1/article/details/88898622

版权

聚类专栏收录该内容

5 篇文章 0 订阅

订阅专栏

1、聚类
聚类的目的就是把不同的数据点按照它们的相似与相异度（？怎么衡量相似与相异）分割成不同的簇，确保每个簇中的数据都是尽可能相似，而不同簇的数据尽可能相异。
从模式识别的角度来讲，聚类就是在发现数据中潜在的模式，帮助人们进行分组归类已达到更好理解数据的分布规律。

聚类是无监督学习方法，不同的聚类方法基于不同的假设和数据类型。

聚类的算法很多，包括
基于划分的聚类算法：k-means、，
基于层次的聚类算法：BIRCH、，
基于密度的聚类算法：DBSCAN、，
基于网格的聚类算法：STING、

2、性能度量和距离计算
聚类性能度量大致有两类。一类是将聚类结果与某个“参考模型”（reference model）进行比较，称为“外部指标”（external index）；另一类是直接考察聚类结果而不利用任何参考模型，称为“内部指标”（internal index）。
2.1_{2.3介绍三种外部指标，2.4}2.5介绍两种内部指标。
在这里插入图片描述
2.1 Jaccard 系数（简称 JC）

在这里插入图片描述
、

即：（在C中隶属于同簇且在C中隶属于同簇的样本对）和（在C中隶属于同簇且在C中隶属于同簇的样本对、在C中隶属于同簇但在C中不隶属于同簇的样本对、在C中不隶属于同簇但在C中隶属于同簇的样本对之和）的比值。

2.2 FM 指数（Fowlkes and Mallows Index，简称 FMI）
在这里插入图片描述
[（在C中隶属于同簇且在C中隶属于同簇的样本对）和（在C中隶属于同簇且在C中隶属于同簇的样本对、在C中隶属于同簇但在C中不隶属于同簇的样本对之和）的比值]与[（在C中隶属于同簇且在C中隶属于同簇的样本对）和（在C中隶属于同簇且在C中隶属于同簇的样本对、在C中不隶属于同簇但在C中隶属于同簇的样本对之和）的比值]之积的平方根。

2.3 Rand指数（Rand Index，简称RI）
在这里插入图片描述
（在C中隶属于同簇且在C中隶属于同簇的样本对与在C中不隶属于同簇且在C中不隶属于同簇的样本对之和）与所有样本对的个数的比值。

显然，上述度量的结果值均在[0,1]区间，值越大越好。
在这里插入图片描述

2.4 DB 指数（Davies-Bouldin Index，戴维森堡丁指数，简称 DBI）
在这里插入图片描述
公式含义：DBI是指任意两个类别的类内距离的平均距离之和与两类簇心之间的间距之比的最大值。

具体解析：
分子：簇内所有点到该簇质心点的平均距离之和
分母：两类别质心间的距离
max()最大值部分：选取每组比例中的最大值（即选取最糟糕的一组）
1/k求和部分：将所选比例加和除以类别数
结果意义：DB值越小表示聚类结果同簇内部紧密，不同簇分离较远。即类内距离越小，类间距离越大。

2.5 Dunn 指数（Dunn Index，达恩指数，简称DI）
在这里插入图片描述
公式含义：任意两簇类间最短距离与任意簇的类内最大距离之比
结果意义：DVI值越大表明聚类结果同簇内部紧密，不同簇分离较远。即类间距离越大，类内距离越小。

2.6 距离计算
在这里插入图片描述

Sophia_Dz

关注

1
点赞
踩
12

收藏

觉得还不错? 一键收藏
1
评论
聚类简述

1、聚类聚类的目的就是把不同的数据点按照它们的相似与相异度（？怎么衡量相似与相异）分割成不同的簇，确保每个簇中的数据都是尽可能相似，而不同簇的数据尽可能相异。从模式识别的角度来讲，聚类就是在发现数据中潜在的模式，帮助人们进行分组归类已达到更好理解数据的分布规律。聚类是无监督学习方法，不同的聚类方法基于不同的假设和数据类型。聚类的算法很多，包括基于划分的聚类算法：k-means、，...
复制链接

扫一扫

专栏目录