聚类效果好坏的评价指标

原文标题:

《Understanding of Internal Clustering Validation Measures》

发表在2010IEEE International Conference on Data Mining

应该译为“内部聚类效果测量的一些理解”,我译成了大白话,也没错,这篇文章讲的就是如何评价你聚类好坏的。


原文下载:http://pan.baidu.com/s/1jHDvyq6


下面译文开始:


#----------------------------------------------------------------分割线----------------------------------------------------------------#


摘要

      众所周知,聚类效果的好坏直接会影响要聚类的效果。大体上,聚类的效果的好坏会又两类指标衡量,一类是外部聚类效果,一类是内部聚类效果。在这篇论文中,我们只探讨内部聚类效果(具体什么是内部聚类效果,为什么用内部聚类效果进行评价看下一节),并给详细的给出了11中评价聚类效果好坏的评价算法,这11种算法应用在5中聚类环境中以展现出他们到底谁更适应“恶劣多变”的聚类环境。


1.介绍

      聚类是一种非常重要的非监督学习技术,他的任务是将目标样本分成若干个簇(cluster),并且保证每个簇之间样本尽量的接近,并且不同簇的样本间距离尽量的远。聚类技术被广泛使用在图像处理和生物信息学。作为一个非监督学习任务,评价聚类后的效果是非常有必要的,否则聚类的结果将很难被应用。

      聚类的评价方式在大方向上被分成两类,一种是分析外部信息,另一种是分析内部信息。外部信息就是能看得见的直观信息,这里指的是聚类结束后的类别号。虽然是个办法,但是这种办法没法应用(举个例子,如果要进行文本聚类,最后聚出了几个类,聚类是否正确可以肉眼分析文章内容来判断这几个样本是不是一个类,要是1w篇文章还能这么做吗?干脆人干吧,还要计算机干嘛)。还有一种分析内部信息的办法,大致意思就是聚完类后会通过一些模型生成这个类聚的怎么样的参数,诸如熵和纯度这种数学评价指标。

      不想外部信息进行评价,内部信息评价是不需要肉眼识别聚类好坏的,也就是说根本就不用知道聚类后的标签是什么,只需要看个指数就行了。并且有很多时候,聚类后的标签你是看不到,这样就只能用内部信息来评价聚类的好坏了。

      在文章中,有很多已经被提出的聚类算法好坏评价算法,诸如CH,I,DB,SD,S_Dbw等等,然而这些算法可能会受数据的“异常”而产生对结果的影响,诸如数据中的噪声等。我们提出了五类可能会预测精度的数据异常情况:单调性、噪声、密度、subcluster(没翻译过来,大致意思是有几个簇离的很近,有几个簇离得很远)、倾斜分散(有些样本少密度大,有些样本多密度小)。每种情况都会用这11种评价算法测试一下,最终发现,S_Dbw算法完爆其他算法。


2.簇的内部信息评价

      在这一节我会介绍有关簇的内部信息的基本概念以及11中评价聚类好坏的算法。

      我们为了能让簇内样本距离尽量的近,簇与簇之间的样本尽量的远,我们需要用以下两种指标来评价。

2.1紧凑度

      紧凑度是衡量一个簇内样本点之间的是否足够紧凑的,比如到簇中心的平均距离啊,方差啊什么的。

2.2分离度

      分离度是衡量该样本是否到其他簇的距离是否足够的远,这里边讲个很多,那11种算法的精髓也是在计算分离度,这里我就不赘述了,原本也只是将个大致意思而已,毕竟那些算法并不是作者写的。这里说说最NB的S_Dbw算法:这种算法是通过一种密度衡量公式来评价分离的好坏的。大致思路是,从所有的簇中心中至少有一个密度值要大于midpoint的密度值(这个没太懂),然后通过SD算法的紧凑度算法搞出一个权重值判断聚类的好坏(具体也没时间深究了,好用就行啊)

2.3对簇内部信息评价的理解

      作者自己搞了点二维数据集,并用K-means做聚类来评价聚类的好坏,其中K-means算法用的是CLUTO的库(作者也是挺懒啊,谁知道这库里用了啥优化算法,反正sklearn里的kmeans用的是kmeans++还有多线程啥子的,实测nb的很啊)

2.3.1单调性的影响

      没太明白这个“单调性”是啥意思,反正样本是这个样子的(我猜是一种近乎于完美的样本):

实验结果如下图:

可以看到大家的结果都不错,这是最理想的情况,所以分不出谁好谁坏。


2.3.2噪声的影响

不多说了直接上数据图和结果图:

有几个算法已经遭不住了


2.3.3样本密度差异的影响


2.3.4subcluster的影响


2.3.5倾斜分散的影响

看了这些结果图不用多说,S_Dbw算法实在太nb了,都不会有失误,但是这是个二维的聚类,所文本聚类怎么也得上百维起,实际效果咋样不得而知。


另外!聚类算法也会有影响,但是这篇文章要比较评价聚类效果算法好坏的讨论,因此制作了简单的对比,如下图:


学校学的kmeans和dbscan效果实在不咋地。。。

剩下俩是何方神圣,我得好好搞搞




  • 26
    点赞
  • 197
    收藏
    觉得还不错? 一键收藏
  • 22
    评论
提供的源码资源涵盖了Java应用等多个领域,每个领域都包含了丰富的实例和项目。这些源码都是基于各自平台的最新技术和标准编写,确保了在对应环境下能够无缝运行。同时,源码中配备了详细的注释和文档,帮助用户快速理解代码结构和实现逻辑。 适用人群: 适合毕业设计、课程设计作业。这些源码资源特别适合大学生群体。无论你是计算机相关专业的学生,还是对其他领域编程感兴趣的学生,这些资源都能为你提供宝贵的学习和实践机会。通过学习和运行这些源码,你可以掌握各平台开发的基础知识,提升编程能力和项目实战经验。 使用场景及目标: 在学习阶段,你可以利用这些源码资源进行课程实践、课外项目或毕业设计。通过分析和运行源码,你将深入了解各平台开发的技术细节和最佳实践,逐步培养起自己的项目开发和问题解决能力。此外,在求职或创业过程中,具备跨平台开发能力的大学生将更具竞争力。 其他说明: 为了确保源码资源的可运行性和易用性,特别注意了以下几点:首先,每份源码都提供了详细的运行环境和依赖说明,确保用户能够轻松搭建起开发环境;其次,源码中的注释和文档都非常完善,方便用户快速上手和理解代码;最后,我会定期更新这些源码资源,以适应各平台技术的最新发展和市场需求。 所有源码均经过严格测试,可以直接运行,可以放心下载使用。有任何使用问题欢迎随时与博主沟通,第一时间进行解答!

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 22
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值