k-means优化 & k-means距离的选择 &k-medoids对比

最新推荐文章于 2022-08-31 10:00:55 发布

a useful man

最新推荐文章于 2022-08-31 10:00:55 发布

阅读量2.7k

点赞数

分类专栏： python机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/sinat_23971513/article/details/106441570

版权

本文探讨了k-means聚类算法的优化策略，包括减少K值、降低特征维度和考虑其他算法。针对k-means距离，强调了欧式距离的普遍使用，以及自定义距离（如余弦相似度）需要重新实现算法。同时，对比了k-means和k-medoids，指出k-medoids允许使用相似度矩阵，但内存和时间复杂度较高。在特定条件下，通过归一化，k-means使用欧式距离可等价于余弦距离。最后，指出了k-medoids对数据类型的要求较低，适合处理类别特征。

摘要由CSDN通过智能技术生成

一、k-means：在大数据的条件下，会耗费大量的时间和内存。

优化k-means的建议：

1、减少聚类的数目K。因为，每个样本都要跟类中心计算距离。

2、减少样本的特征维度。比如说，通过PCA等进行降维。

3、考察其他的聚类算法，通过选取toy数据，去测试不同聚类算法的性能。

4、hadoop集群，K-means算法是很容易进行并行计算的。

二、K-means距离的定义：

目前各种机器学习开源库，对于k-means的实现，都是基于欧式距离。如果想自定义距离，比如说用余弦相似度，那么k-means就必须要重新推导，也即需要重新实现k-means。

下面，从k-means的推导中，可以发现，在k-means当中，计算类的中心，跟距离的定义是紧密相关的。

如上所示：在k-means当中，重新计算类中心，仅在距离定义为欧式距离的前提下，才是加和取平均。如果想用cos相似度，那么就必须要重新推导，计算类中心的方式。所以说，一般开源库实现的k-means，都没有提供让你自定义聚类的接口。或者说，让你传进去一个距离矩阵。 </

最低0.47元/天解锁文章

关注

0
点赞
踩
6

收藏

觉得还不错? 一键收藏
打赏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

a useful man 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。