聚类
基本概念
聚类:
将对象分成相似的类,聚类中 一个样本可属于多个类别
特征:
不考虑数据的类标号,而是通过聚类产生新类标号
评价:
最大化类内相似性(similarity),最小化类间相似性。相似性需要定义,作为聚类的标准
数据挖掘的要求
可解释性
发现任意形状的聚类
处理不同类型属性的能力
可伸缩性
对于决定输入参数的领域知识需求最小
什么不是聚类:
分类:有类标
聚类最优分类组是未知的
聚类结果是动态的
可能没有关于聚类的先验知识
简单分组:有定义(根据姓名进行分组)
检索结果:有确定结果
图分割
数据结构
矩阵(表): 列标示特征、行标示记录,待处理的数据
相异度矩阵(对称矩阵): d(i,j):标示对象i和j的相异度,多数聚类算法都是对相异度矩阵运行
区间标度变量
粗略的线性、连续变量,如高度、气温,选用的单位会影响聚类结果,度量单位(数值比较大,特征就会影响)
解决: 度量标准化(转换为无单位的值):1. 计算均值绝对偏差(反应数据离散度) 2.