k-means算法、性能及优化

最新推荐文章于 2024-08-05 10:55:11 发布

Spring_04

最新推荐文章于 2024-08-05 10:55:11 发布

阅读量1.5w

点赞数 1

分类专栏：机器学习面试点总结文章标签：机器学习性能优化

本文链接：https://blog.csdn.net/datoutong_/article/details/78804151

版权

k-means是一种简单的非监督学习算法，用于将数据聚类到k个簇。文章介绍了算法的基本原理，包括质心选择、迭代过程和误差平方函数的优化。讨论了k-means的优缺点，如依赖初始聚类中心、对k值的敏感性以及对离群点的敏感性。并提出了优化策略，如使用kd树和ball tree提高搜索效率。

摘要由CSDN通过智能技术生成

 
 k-means算法、性能及优化 

 
 一、k-means算法简介 

 
 k-means是用来解决著名的聚类问题的最简单的非监督学习算法之一。 

 
 该过程遵循一个简易的方式，将一组数据划分为预先设定好的k个簇。其主要思想是为每个簇定义一个质心。设置这些质心需要一些技巧，因为不同的位置会产生不同的聚类结果。因此，较好的选择是使它们互相之间尽可能远。接下来将数据中的每个点归类为距它最近的质心，距离的计算可以是欧式距离、曼哈顿距离、切比雪夫距离等。如果所有的数据点都归类完毕，那么第一步就结束了，早期的聚合过程也相应完成。此时，我们根据上一步所产生的结果重新计算k个质心作为各个簇的质心。一旦获得k个新的质心，我们需要重新将数据集中的点与距它最近的新质心进行绑定。一个循环就此产生。作为循环的结果，我们发现k个质心逐步改变它们的位置，直至位置不再发生变化为止。 

 
 k-means算法是数值的、非监督的、非确定的、迭代的。 

 
 二、k-means算法流程 

 
 1、从所有的观测实例中随机取出k个观测点，作为聚类的中心点；然后遍历奇遇的观测点找到各自距离最近的聚类中心点，并将其加入该聚类中。这样，我们便有了一个初始的聚类结果，这是一次迭代过程。 

 
 2、每个聚类中心都至少有一个观测实例，这样，我们便可以求出每个聚类的中心点，作为新的聚类中心（ 
 该聚类中所有实例的 
 均值 
 ），然后再遍历其他所有的观测点，找到距离其最近的中心点，并加入到该聚类中。 

 
 3、如此重复步骤2，直到前后两次迭代得到的聚类中心点不再发生变化为止。 

最低0.47元/天解锁文章

Spring_04

关注

1
点赞
踩
21

收藏

觉得还不错? 一键收藏
5
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录