一、基本概念
聚类:对无标签的数据,按照其内在规律分组
概念:聚类,簇,
用途:1)数据内在的分布结构的探索 2)更复杂的问题的前驱,如分类等其他问题
性能度量:
好的聚类结果:簇内相似度高,簇间相似度低
外部指标:与参考模型对比,(Jaccard系数,FM指数,Rand指数)
外部指标类似于查准率与查全率等指标的意思
内部指标:直接考察聚类结果(样本间的距离,簇的中心点,DB指数,Dunn指数)
内部指标,主要是考察不同簇间的距离关系,通过对距离的计算来判断簇间的差异,从而衡量聚类的性能
DB指数,可以理解为簇的大小,与簇间中心点距离之比
Dunn指数,全局两个不同簇中样本的最小距离,与簇内部样本间的最大距离之比
两个指标,都是在对比簇间的距离和簇本身的大小,可以想象,肯定是簇间距离越大越好,簇的大小越小越好
注:性能度量中讲的度量方式比较抽象,只是基本的公式和定义
距离计算
1)范数
2)有序属性和无序属性
3ÿ