基于《数据挖掘导论》这本书,总结一下聚类的基本概念和知识点
聚类
一、 实用的聚类
- 汇总
依赖分析类型、原型个数和原型代表数据的精度,汇总结果可以与使用所有数据得到的结果相媲美 - 压缩
每个对象用与它所在的簇相关联的索引表示,这类压缩称作向量量化,常用于图像、声音和视频数据,此类数据特点:
(1) 许多数据对象之间高度相似,
(2) 某些信息丢失是可以接受的
(3) 希望大幅度压缩数据量 - 有效的发现最近邻
找最近的邻点,计算近邻簇中对象的距离,其中两个簇的领近性用其原型之间的距离来测量
二、 聚类的主要问题
1. 将数据对象划分为簇集合的不同方法
2. 簇的类型
三、 聚类分析
- 在数据中发现描述对象及其关系的信息,将数据对象分组。
- 目标:组内的对象相互之间是相似的(相关的),而不同组中的对象是不同的(不相关的)。 组内的相似性(同质性)越大(内聚度, Cohesion),组间的差别越大(内聚度, Coupling),聚类就越好。
- 聚类分析分为监督分类(supervised classification),非监督分类(unsupervised classification)。通常如无特殊提示,则默认为监督分类。
- 术语:分割(segmentation), 划分(partiti