机器学习(9)------------------------------聚类
聚类 |
聚类任务 | 无监督学习中,训练样本通常没有标记,常用聚类寻找数据内部的规律 聚类是将一个数据集划分为多个不相交的子集的过程,每一个子集称一簇(类) 可作为单独过程,寻找内部规律 可作为前驱过程,为后续训练模型打基础 | 性能度量 (有效性指标) | 目标:同簇相似,异簇不同 用簇内相似度和簇间相似度来描述 性能度量有两类: 外部指标:将结果与某个参考模型比较 内部指标:直接考察结果,不利于任何参考模型 有 Jaccard系数、FM指数、Rand指数、DB指数、Dunn指数 DBI越小越好,DI越大越好 | 距离计算 | 距离度量满足以下性质: 非负性、同一性、对称性、直递性 常用闵可夫斯基距离 属性可可划分为连续属性、离散属性 离散属性可分为有序属性和无序属性 闵可夫斯基距离适用于有序属性 VDM(Value Difference Metric)适用于无序属性 相似度度量,距离越大,相似度越小 | 原型聚类 | k均值法针对聚类所得簇划分最小化平方误差 学习向量量化(LVQ),假设样本带有类别标记,利用标记辅助聚类 高斯混合聚类采用概率模型来表达聚类原型 | 密度聚类 | 有密度可达关系导出的最大密度相连样本集合 | 层次聚类 | 试图在不同层次对数据进行划分,从而形成属性的聚类结构 可以自底向上、也可以自顶向下 AGNES是自底向上的一种算法 |
|
参考文献
周志华. 机器学习