《机器学习》读书笔记 ——第九章 聚类

1、聚类任务

在“无监督学习”(unsupervised learning)中,训练样本的标记信息是未知的,目标是通过对无标记训练样本的学习来揭示数据的内在性质和规律,为进一步的数据分析提供基础,此类学习任务中研究最多、应用最广的是“聚类”(clustering)。

clusting试图将数据集中的样本划分为若干个通常不相交的子集,每个子集称为一个簇(cluster),通过这样的划分,每个簇可能对应一些潜在的概念(类别)。

clusting既可以作为一个单独过程,用于寻找数据内在的分布结构,也可以作为分类等其他学习任务的前驱过程。

2、性能度量

clustering性能度量亦称聚类的“有效性指标”(validity index),与监督学习中的性能度量作用相似:一方面可以评估聚类结果的好坏;另一方面,可直接作为聚类过程的优化目标。好的聚类结果——“簇内相似度”(intra-cluster similarity)高,且“簇间相似度”(inter-cluster similarity)低。

cluster性能度量大致有两类,一类是将聚类结果与某个“参考模型”(reference model)进行比较,称为“外部指标”(external index);另一类是直接考察聚类结果而不利用任何参考模型,称为“内部指标”(internal index)

外部指标:Jaccard系数Jaccard Coefficient(JC)、FM指数Fowlkes and Mallows index(FMI)、Rand指数Rand Index(RI),上述性能度量结果值都在[0,1]区间,值越大样本的相似度越低。

内部指标:DB指数Davies-Bouldin Index(DBI)、Dunn指数Dunn Index(DI),DBI值越小越好、DI值越大越好。

3、距离计算

“距离度量”(distance measure)需满足一些基本性质:非负性、同一性、对称性、直递性。最常用的是“闵可夫斯基距离”(Minkowski distance),当p=2时,即欧氏距离(Euclidean distance);当p=1时,即曼哈顿距离(Manhattan distance/ city block distance)

我们常将属性划分为“连续属性”(continuous attribute)和“离散属性”(categorical attribute)。前者在定义域内有无穷多个可能的取值,后者在定义域上是有限个取值。然而在讨论距离计算时,属性是否定义了“序”关系,例如:定义域{1,2,3}的离散属性与连续属性的性质更接近一些,能直接在属性值上计算距离:“1”与“2”比较接近、与“3”比较远,这样的属性称为“有序属性”(ordinal attribute);而定义域为{飞机、火车、轮船}这样的离散属性则不能直接在属性值上计算距离,称为“无序属性”(non-ordinal attribute)。显然闵可夫斯基距离可用于有序属性。

对无序属性可采用VDM(Value Difference Metric)

将闵可夫斯基距离和VDM结合即可处理混合属性。

当样本空间不同属性的重要性不同时,可使用“加权距离”(weighted distance),其中权重表征不同属性的重要性。

需要注意:通常我们是基于某种形式的距离来定义“相似度度量”(similarity measure),然而,相似度量的距离未必一定要满足距离度量的所有基本性质。例如:直递性(三角不等式)不一定满足。这样的距离称为“非度量距离”(non-metric distance)。本节介绍的距离计算式都是事先定义好的,但在不少现实任务中,有必要基于数据样本来确定合适的距离计算式,这可通过“距离度量学习”(distance metric learning)来实现。

4、原型聚类

亦称“基于原型的聚类”(prototype-based clustering),“原型”是指样本空间中具有代表性的点。

1)k均值算法(k-means)

给定样本集,k-means算法针对聚类所得簇划分最小化平方误差在一定程度上刻画了簇内样本围绕簇均值向量的紧密程度,其值越小则簇内样本相似度越高。

最小化平方误差并不容易,找到它的最优解需考察样本集所有可能的簇划分,这是一个NP难问题。因此k-means采用了贪心策略,通过迭代优化来近似求解。

2)学习向量量化(Learning Vector Quantization,LVQ)

与k-means类似,LVQ也是试图找到一组原型向量来刻画聚类结构,但与一般聚类算法不同的是,LVQ假设数据样本带有类别标记,学习过程利用样本的这些监督信息来辅助聚类。

3)高斯混合聚类

与k-means、LVQ用原型向量来刻画聚类结构不同,高斯混合(Mixture-of-Gaussian)聚类采用概率模型来表达聚类原型。高斯分布完全由均值向量和协方差矩阵两个参数确定。高斯混合分布共由k个混合成分组成,每个混合成分对应一个高斯分布。同时带有一个混合系数(mixture coefficient).

从原型聚类的角度看,高斯混合聚类是采用概率模型(高斯分布)对原型进行刻画,簇划分则由原型对应后验概率确定。

5、密度聚类

密度聚类亦称“基于密度的聚类”(density-based clustering),此类算法假设聚类结构能通过样本分布的紧密程度确定。通常情形下,密度聚类算法从样本密度的角度考察样本之间的可连接性,并基于可连接样本不断扩展聚类簇以获得最终的聚类结果。DBSCAN是一种著名的密度聚类算法,它基于一组“邻域”(neighborhood)参数来刻画样本分布的紧密程度。

邻域、核心对象、密度直达、密度可达、密度相连。

DBSCAN将“簇”定义为:由密度可达关系导出的最大的密度相连样本集合。先任选数据集中的一个核心对象为“种子”(seed),并以此出发确定相应的聚类簇。

6、层次聚类(hierarchical clustering)

试图在不同层次对数据集进行划分,从而形成树形的聚类结构,数据集的划分可采用“自底而上”的聚合策略,也可采用“自顶而下”的分拆策略。

AGNES是一种采用自底而上聚合策略的层次聚合算法。它先将数据集中的每个样本看作一个初始聚类簇,然后在算法运行的每一步中找到距离最近的两个聚类簇进行合并,该过程不断重复,直至达到预设的聚类簇个数。这里关键是如何计算聚类簇之间的距离。

 

 

 

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值