聚类:对聚类性能的评价

本文介绍了评估无监督聚类算法性能的两种常用方法——肘部法则和轮廓系数,并结合k-means算法进行解释。肘部法则通过观察随着类别增加畸变程度的变化来选择合适的聚类数;轮廓系数则衡量簇内的紧密度和簇间的分离度。此外,还探讨了欧式距离和余弦距离在聚类中的应用及其特点。
摘要由CSDN通过智能技术生成

一、前言

对于有监督的学习方法,我们可以找到许多评价指标,但是要评价无监督算法的质量,相对来说比较少有提及,正好最近在做一个相关的工作,稍微整理一下。

二、方法

下述提及方法均以k-means算法为基础, 不同聚类方法有不同的评价指标,这里说说k-means常用的两种方法

1、肘部法则–Elbow Method

我们知道k-means是以最小化样本与质点平方误差作为目标函数,将每个簇的质点与簇内样本点的平方距离误差和称为畸变程度(distortions),那么,对于一个簇,它的畸变程度越低,代表簇内成员越紧密,畸变程度越高,代表簇内结构越松散。
畸变程度会随着类别的增加而降低,但对于有一定区分度的数据,在达到某个临界点时畸变程度会得到极大改善,之后缓慢下降,这个临界点就可以考虑为聚类性能较好的点。
基于这个指标,我们可以重复训练多个k-means模型,选取不同的k值,来得到相对合适的聚类类别,
这里写图片描述
如上图所示,在k=2时,畸变程度得到大幅改善,可以考虑选取k=2作为聚类数量,附简单代码:

from sklearn.cluster import KMeans
model = KMeans(n_clusters=k)
model.fit(vector_points)
md = m
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值