根据邵俊明老师的课件整理而成
聚类分析(Cluster Analysis)
聚类:
将数据分为多个簇(Clusters),使得在同一个簇内对象之间具有较高的相似度,而不同簇之间的对象差别较大
探索数据内部潜在的自然分组结构
无监督学习(无类别信号)
聚类分析的作用
- 聚类分析是获得数据内部结构的有效方法
- 通过观察聚类得到的每个簇的特点,可以集中对特定的某些簇作进一步分析
- 这在诸如市场细分、目标顾客定位、业绩估评、生物种群划分、城市规划等方面具有广阔的应用前景
- 聚类分析可以作为其它算法的预处理步骤
- 利用聚类进行数据预处理,可以获得数据的基本概况
- 在此基础上进行特征抽取或分类就可以提高精确度和挖掘效率
- 也可将聚类结果用于进一步关联分析,以获得进一步的有用信息
- 聚类分析可以完成噪声点/孤立点的挖掘
- 许多数据挖掘算法试图使孤立点影响最小化,或者排除它们
- 孤立点本身可能是非常有用的。如在欺诈探测中,孤立点可能预示着欺诈行为的存在
- 许多聚类分析算法都具有噪声点检测的功能
聚类分析的目的
寻找数据中潜在的自然分组结构 (a structure of “natural” grouping)
- 聚类分析努力使得数据簇满足下面两个条件
- 一个簇内的数据尽量相似(high intra-class similarity)
- 不同簇的数据尽量不相似(low inter-class similarity)
聚类算法
按照聚类的基本思想可主要分为4种方法
划分方法 (partitioning method)
- 给定一个有n个对象的数据集,它将数据划分为k个簇&