机器学习(9)

机器学习(9)------------------------------聚类

聚类

聚类任务

无监督学习中,训练样本通常没有标记,常用聚类寻找数据内部的规律

聚类是将一个数据集划分为多个不相交的子集的过程,每一个子集称一簇(类)

可作为单独过程,寻找内部规律

可作为前驱过程,为后续训练模型打基础

性能度量

(有效性指标)

目标:同簇相似,异簇不同

用簇内相似度和簇间相似度来描述

性能度量有两类:

外部指标:将结果与某个参考模型比较

内部指标:直接考察结果,不利于任何参考模型

Jaccard系数、FM指数、Rand指数、DB指数、Dunn指数

DBI越小越好,DI越大越好

距离计算

距离度量满足以下性质:

非负性、同一性、对称性、直递性

常用闵可夫斯基距离

属性可可划分为连续属性、离散属性

离散属性可分为有序属性和无序属性

闵可夫斯基距离适用于有序属性

VDM(Value Difference Metric)适用于无序属性

相似度度量,距离越大,相似度越小

原型聚类

k均值法针对聚类所得簇划分最小化平方误差

学习向量量化(LVQ),假设样本带有类别标记,利用标记辅助聚类

高斯混合聚类采用概率模型来表达聚类原型

密度聚类

有密度可达关系导出的最大密度相连样本集合

层次聚类

试图在不同层次对数据进行划分,从而形成属性的聚类结构

可以自底向上、也可以自顶向下

AGNES是自底向上的一种算法

参考文献

周志华. 机器学习

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值