聚类总结

一、基本概念

聚类:对无标签的数据,按照其内在规律分组

概念:聚类,簇,

用途:1)数据内在的分布结构的探索 2)更复杂的问题的前驱,如分类等其他问题

性能度量:

好的聚类结果:簇内相似度高,簇间相似度低

外部指标:与参考模型对比,(Jaccard系数,FM指数,Rand指数)

外部指标类似于查准率与查全率等指标的意思

内部指标:直接考察聚类结果(样本间的距离,簇的中心点,DB指数,Dunn指数)

内部指标,主要是考察不同簇间的距离关系,通过对距离的计算来判断簇间的差异,从而衡量聚类的性能

DB指数,可以理解为簇的大小,与簇间中心点距离之比

Dunn指数,全局两个不同簇中样本的最小距离,与簇内部样本间的最大距离之比

两个指标,都是在对比簇间的距离和簇本身的大小,可以想象,肯定是簇间距离越大越好,簇的大小越小越好

注:性能度量中讲的度量方式比较抽象,只是基本的公式和定义

距离计算

1)范数

2)有序属性和无序属性

3ÿ

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值