机器学习算法笔记之8:聚类算法

本文介绍了无监督学习中的聚类任务,详细讲解了聚类性能度量、距离计算方法,并重点阐述了原型聚类中的k均值和学习向量量化算法,以及密度聚类中的DBSCAN算法和层次聚类。通过实例和关键概念解释,帮助理解各种聚类算法的工作原理和应用场景。
摘要由CSDN通过智能技术生成

一、聚类任务

在“无监督学习”(unsupervisedlearning)中,训练样本的标记信息是未知的,目标是通过对无标记训练样本的学习来揭示数据的内在性质和规律,最常用的就是“聚类”(clustering)。

聚类试图将数据集中的样本划分为若干个通常是不相交的子集,每个子集称为一个“簇”(cluster)。聚类过程只能自动形成簇结构,簇对应的概念语义需由使用者来把握和命名。

聚类既能作为一个单独过程,用于找寻数据内在的分布结构,也可作为分类等其他学习任务的前驱过程。

二、性能度量

聚类性能度量亦称聚类“有效性指标”(validityindex)。对聚类结果,我们需要通过某种性能度量来评估其好坏;另一方面,若明确了性能度量,则可直接将其作为聚类过程的优化目标,从而更好地得到符合要求的聚类结果。聚类的结果应该是“簇内相似度”(intra-cluster similarity)高且“簇间相似度”(inter-clustersimilarity)低。

聚类性能度量大致有两类:一类是将聚类结果与某个“参考模型”进行比较,称为“外部指标”;另一类是直接考察聚类结果而不利用任何参考模型,称为“内部指标”。

三、距离计算

对函数dist(·,·),若它是一个“距离度量”(distancemeasure),则需要满足以下性质:非负性、同一性、对称性、直递性。

直递性:

给定样本,最常用的是“闵可夫斯基距离”(Minkowski distance)

上式显然满足距离度量的基本性质。

p=2时,即为欧

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值