K-means和K-medoids

本文介绍了K-means和K-medoids两种聚类算法,强调了聚类的基本原则——紧密度和分离度。K-means通过计算均值作为中心,易受异常值影响;而K-medoids则选取数据点作为中心,更稳定。K-means适用于欧氏空间数据,对数据分布有特定要求。文中提供了K-means和K-medoids的R代码示例,并展示了聚类结果。
摘要由CSDN通过智能技术生成
聚类问题是将一组对象分成若干个群体,每个群体构成一个簇,使得簇内的对象尽可能具有最大的相似性,不同簇之间的对象尽可能有最大的相异性,聚类过程是一个寻找最优划分的过程,即根据聚类质量的评价准则或方法不断对划分进行优化,最终得到最优解。由于聚类是无指导的学习过程事先对数据的结构是未知的,因此,最终的聚类结果都需要进行有效性验证和质量评价。

一般来说  评价聚类和选择最优聚类模式的原则有两个:紧密度,即簇中的成员必须尽可能地相互靠近。分离度,簇与簇之间的距离尽可能地远。大多数评价聚类质量的方法都是基于这两个原则。

K-means算法通过计算一类记录的均值来代表该类,但是受异常值或极端值的影响比较大。K-means比较相似另一种算法K-medoids,它通过中心点的迭代轮换及最小化类内差异完成数据对象聚类。首先随机初始中心,然后将其余对象分配给最近的簇;在反复用非中心点来替代中心点后重复分配过程,以提高聚类质量至聚类质量不再变化。而在K-means中,我们将中心点取为当前cluster中所有数据点的平均值。如下图所示,在K-medoids中,需要计算每一个未被选中的数据点h和选中的数据点i的交换代价TCih,如果TCih<0,就用h替换。其中TCih= Cjih,Cjih = d(j, h) - d(j, i)。
  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 2
    评论
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值