聚类总结

本文介绍了聚类的基本概念,包括聚类的目的和性能度量,详细讲解了原型聚类(K-means、LVQ、高斯混合聚类)、密度聚类(DBSCAN)和层次聚类(Agnes)的原理及优缺点。聚类算法在商业选址、地址标准化、保险投保者分组等领域有广泛应用。K-means与高斯混合聚类在二维图形上有相似性,而DBSCAN能发现任意形状的聚类簇并识别异常点。
摘要由CSDN通过智能技术生成

一、基本概念

聚类:对无标签的数据,按照其内在规律分组

概念:聚类,簇,

用途:1)数据内在的分布结构的探索 2)更复杂的问题的前驱,如分类等其他问题

性能度量:

好的聚类结果:簇内相似度高,簇间相似度低

外部指标:与参考模型对比,(Jaccard系数,FM指数,Rand指数)

外部指标类似于查准率与查全率等指标的意思

内部指标:直接考察聚类结果(样本间的距离,簇的中心点,DB指数,Dunn指数)

内部指标,主要是考察不同簇间的距离关系,通过对距离的计算来判断簇间的差异,从而衡量聚类的性能

DB指数,可以理解为簇的大小,与簇间中心点距离之比

Dunn指数,全局两个不同簇中样本的最小距离,与簇内部样本间的最大距离之比

两个指标,都是在对比簇间的距离和簇本身的大小,可以想象,肯定是簇间距离越大越好,簇的大小越小越好

注:性能度量中讲的度量方式比较抽象,只是基本的公式和定义

距离计算

1)范数

2)有序属性和无序属性

3ÿ

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值