周志华 机器学习 Day15

聚类

聚类任务

在“无监督学习”中,训练样本的标记信息是未知的,目标是通过对无标记训练样本的学习来揭示数据的内在性质及规律,为进一步的数据分析提供基础。次来学习任务中研究最多、应用最广的是“聚类”。

聚类试图将数据集中的样本划分为若干个通常是不相交的子集,每个子集称为一个“簇”。

性能度量

聚类性能度量亦称聚类“有效性指标”,与监督学习性能度量作用相似,对聚类结果,我们需通过某种性能度量来评估其好坏;另一方面,若明确了最终将要使用的性能度量,则可直接将其作为聚类过程的优化目标,从而更好地得到符合要求的聚类结果。

聚类性能度量大致有两类:(1)将聚类结果与某个“参考模型”进行比较,称为“外部指标”;(2)直接考察聚类结果而不利用任何参考模型,称为“内部指标”。

距离计算

对函数dist(·,·),若它是一个“距离度量”,则需要满足一些基本性质:非负性、同一性、对称性、直递性。

给定样本xi=(xi1;xi2;.....;xin)与xj=(xj1;xj2;.....;xjn),最常用的是“闵可夫斯基距离”


对p≥1,上式满足距离度量基本性质。

对p=2时,闵可夫斯基距离即欧式距离


对p=1时,闵可夫斯基距离即曼哈顿距离


原型聚类

原型聚类亦称“基于原型的聚类”,此类算法假设聚类结构能通过一组原型刻画,在现实聚类任务中极为常用。通常情形下,算法先对原型进行初始化,然后对原型进行迭代更新求解。下面介绍几种著名的原型聚类算法。

1、k均值算法


2、学习向量量化

学习向量量化(简称LVQ)试图找到一组原型向量来刻画聚类结构,但与一般聚类算法不同的是,LVQ假设数据样本带有类别标记,学习过程利用样本的这些监督信息来辅助聚类。


每一轮迭代中,算法随机选取一个有标记训练样本,找出与其距离最近的原型向量,并根据两者的类别标记是否一致来对原型向量进行相应的更新。在第12行中,若算法的停止条件满足(例如已达到最大迭代轮数,或原型向量更新很小甚至不再更新),则将当前原型向量作为最终结果返回。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值