聚类简述

1、 聚类
聚类的目的就是把不同的数据点按照它们的相似与相异度(?怎么衡量相似与相异)分割成不同的簇,确保每个簇中的数据都是尽可能相似,而不同簇的数据尽可能相异。
从模式识别的角度来讲,聚类就是在发现数据中潜在的模式,帮助人们 进行分组归类已达到更好理解数据的分布规律。

聚类是无监督学习方法,不同的聚类方法基于不同的假设和数据类型。

聚类的算法很多,包括
基于划分的聚类算法:k-means、,
基于层次的聚类算法:BIRCH、,
基于密度的聚类算法:DBSCAN、,
基于网格的聚类算法:STING、

2、 性能度量和距离计算
聚类性能度量大致有两类。一类是将聚类结果与某个“参考模型”(reference model)进行比较,称为“外部指标”(external index);另一类是直接考察聚类结果而不利用任何参考模型,称为“内部指标”(internal index)。
2.12.3介绍三种外部指标,2.42.5介绍两种内部指标。
在这里插入图片描述
2.1 Jaccard 系数(简称 JC)
在这里插入图片描述

在这里插入图片描述在这里插入图片描述
在这里插入图片描述

即:(在C中隶属于同簇且在C中隶属于同簇的样本对)和(在C中隶属于同簇且在C中隶属于同簇的样本对、在C中隶属于同簇但在C中不隶属于同簇的样本对、在C中不隶属于同簇但在C中隶属于同簇的样本对之和)的比值。

2.2 FM 指数(Fowlkes and Mallows Index,简称 FMI)
在这里插入图片描述
[(在C中隶属于同簇且在C中隶属于同簇的样本对)和(在C中隶属于同簇且在C中隶属于同簇的样本对、在C中隶属于同簇但在C中不隶属于同簇的样本对之和)的比值]与[(在C中隶属于同簇且在C中隶属于同簇的样本对)和(在C中隶属于同簇且在C中隶属于同簇的样本对、在C中不隶属于同簇但在C中隶属于同簇的样本对之和)的比值]之积的平方根。

2.3 Rand指数(Rand Index,简称RI)
在这里插入图片描述
(在C中隶属于同簇且在C中隶属于同簇的样本对与在C中不隶属于同簇且在C中不隶属于同簇的样本对之和)与所有样本对的个数的比值。

显然,上述度量的结果值均在[0,1]区间,值越大越好。
在这里插入图片描述
在这里插入图片描述

2.4 DB 指数(Davies-Bouldin Index,戴维森堡丁指数,简称 DBI)
在这里插入图片描述
公式含义:DBI是指任意两个类别的类内距离的平均距离之和与两类簇心之间的间距之比的最大值。

具体解析:
分子:簇内所有点到该簇质心点的平均距离之和
分母:两类别质心间的距离
max()最大值部分:选取每组比例中的最大值(即选取最糟糕的一组)
1/k求和部分:将所选比例加和除以类别数
结果意义:DB值越小表示聚类结果同簇内部紧密,不同簇分离较远。即类内距离越小,类间距离越大。

2.5 Dunn 指数(Dunn Index,达恩指数,简称DI)
在这里插入图片描述
公式含义:任意两簇类间最短距离与任意簇的类内最大距离之比
结果意义:DVI值越大表明聚类结果同簇内部紧密,不同簇分离较远。即类间距离越大,类内距离越小。

2.6 距离计算
在这里插入图片描述

  • 1
    点赞
  • 12
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值