一、聚类分析基础
什么是聚类分析?
– 将物理或抽象对象的集合分成相似的对象类的过程称为聚类
– 在同一个聚类(簇)中的对象彼此相似
– 不同簇中的对象则相异
聚类分析的作用
– 分类是人类认知世界的重要活动
– 区分不同类依靠类的特征
– 找出标识分类的特征,以区分不同的类
典型应用
– Marketing
– 图像处理
– 生物学
– 交通
– 房地产
- 分析内容主题
- 识别群体
- 发现行为模式
无指导的学习:没有预定义的类编号
聚类分析的数据挖掘 功能– 作为一个独立的工具来获得数据分布的情况
– 作为其他算法(如:特征和分类)的预处理步骤
一个好的聚类分析方法会产生高质量的聚类
– 高类内相似度
– 低类间相似度
聚类分析的研究主要是基于距离的聚类;一个高质量的聚类分析结果,将取决于所使用的聚类方法– 聚类方法的所使用的相似性度量和方法的实施
– 方法发现隐藏模式的能力
聚类要求
– 可扩展性(Scalability)• 大多数来自于机器学习和统计学领域的聚类算法在处理数百条数据时能表现出高效率
– 处理不同数据类型的能力
• 数字型;二元类型,分类型/标称型,序数型,比例标度型等等
– 发现任意形状的能力
• 基于距离的聚类算法往往发现的是球形的聚类,其实现实的聚类是任意形状的
– 用于决定输入参数的领域知识最小化
• 对于高维数据,参数很难决定,聚类的质量也很难控制
– 处理噪声数据的能力
• 对空缺值、离群点、数据噪声不敏感
– 对于输入数据的顺序不敏感
• 同一个数据集合,以不同的次序提交给同一个算法,应该产生相似的结果
– 高维性
• 高维的数据往往比较稀松,而且高度倾斜
– 基于约束的聚类
• 找到既满足约束条件,又具有良好聚类特性的数据分组
– 可解释性和可用性
• 聚类要和特定的语义解释和应用相联系
二、聚类分析基础
基于划分的聚类问题描述
– 划分准则:同一个聚类中的对象尽可能的接近或相关,不同聚类中的对象尽可能的原理或不同
– 给定一个n个对象或元组的数据库,一个划分方法构建数 据的k个划分,