k-means优化 & k-means距离的选择 &k-medoids对比

本文探讨了k-means聚类算法的优化策略,包括减少K值、降低特征维度和考虑其他算法。针对k-means距离,强调了欧式距离的普遍使用,以及自定义距离(如余弦相似度)需要重新实现算法。同时,对比了k-means和k-medoids,指出k-medoids允许使用相似度矩阵,但内存和时间复杂度较高。在特定条件下,通过归一化,k-means使用欧式距离可等价于余弦距离。最后,指出了k-medoids对数据类型的要求较低,适合处理类别特征。
摘要由CSDN通过智能技术生成
一、k-means:在大数据的条件下,会耗费大量的时间和内存。
优化k-means的建议:
1、减少聚类的数目K。因为,每个样本都要跟类中心计算距离。
2、减少样本的特征维度。比如说,通过PCA等进行降维。
3、考察其他的聚类算法,通过选取toy数据,去测试不同聚类算法的性能。
4、hadoop集群,K-means算法是很容易进行并行计算的。

二、K-means距离的定义:
目前各种机器学习开源库,对于k-means的实现,都是基于欧式距离。如果想自定义距离,比如说用余弦相似度,那么k-means就必须要重新推导,也即需要重新实现k-means。
下面,从k-means的推导中,可以发现,在k-means当中,计算类的中心,跟距离的定义是紧密相关的。


如上所示:在k-means当中,重新计算类中心, 仅在距离定义为欧式距离的前提下,才是加和取平均。如果想用cos相似度,那么就必须要重新推导,计算类中心的方式。所以说, 一般开源库实现的k-means,都没有提供让你自定义聚类的接口。或者说,让你传进去一个距离矩阵。 </
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

a useful man

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值