机器学习算法-KMeans聚类算法解析及伪代码实现。

最新推荐文章于 2025-03-19 21:53:58 发布

徐小狗不是狗

最新推荐文章于 2025-03-19 21:53:58 发布

阅读量2.3w

点赞数 11

分类专栏：机器学习文章标签：机器学习 KMeans 聚类算法伪代码

本文链接：https://blog.csdn.net/XXG88888888/article/details/79116124

版权

机器学习专栏收录该内容

3 篇文章

订阅专栏

机器学习算法-KMeans聚类算法解析及伪代码实现。

徐小狗在文末附上了几条大神们关于KMeans聚类算法的博文，欲详细研究请前往浏览~

作为初学者，许多地方可能笨拙或有误，希望有大神看到后给予优化和指点！~

Why - KMeans：现实中的聚类分析问题 - 总统大选

假设 M 国又开始全民选举总统了，目前 Mr.OBM 的投票率为48%(投票数占所有选民人数的百分比)，而 Mr.MKN 的为47%，而剩下的一部分出于【种种原因】没有投票。

做为其中某个阵营的人，自然是希望能够尽可能的争取到这些剩余的票 -因为这完全可能影响最终选举结果。

然而，你不可能争取到这些人的所有投票，因为你满足某个群体的人，也许就伤害到了另一群人的利益。

一个很不错的想法是将这些人分为 K 个群体，然后主要对其中人数最多的几个群体做工作。

这就需要使用到聚类的策略了。

聚类策略是搜集剩余选民的用户信息(各种满意/不满意的信息)，将这些信息输入进聚类算法，然后对聚类结果中人数最多的簇的选民做思想工作。

可能你会发现某个簇的选民都是一个社区的，一个宗教信仰的，或者具有某些共性。这样就方便各种各样的拉票活动了。

What - KMeans聚类算法：

聚类：给事物打标签，寻找同一组内的个体之间的一些潜在的相似模式，力图找到数据的自然分组。

聚类是一种无监督的机器学习任务，它可以自动将数据划分成类。

因此聚类分组不需要提前被告知组应该是什么样的（比如总统大选的例子），因为我们甚至都不知道我们在寻找什么，所以聚类是应用于知识探索而不是预测。

KMeans聚类算法思想：以空间中K个点为中心进行聚类，对最靠近他们的对象归类，通过迭代，逐次更新各聚类中心的值，直到最好的聚类结果。

How - KMeans聚类算法：

KMeans聚类算法流程：

KMeans聚类算法缺点：

1.初始选择中心点的位置是随机的，不同的随机初始中心点会有不同的迭代次数，有时候会计算很多次，而且结果也会不同；

2.KMeans需要人为的确定初始聚类中心，不同的初始聚类中心可能导致完全不同的聚类结果；

3.聚类中心的个数K需要事先给定，但在实际中这个K值的选定是非常难以估计的，很多时候，事先并不知道给定的数据集应该分成多少个类别才合适；

KMeans聚类算法优化：KMenas++算法

KMeans++算法思想：

1.假设分为K类；

2.从输入的数据点集合中随机选择一个点作为第一个聚类中心；

3.对于数据集中的每一个点x，计算其与最近的聚类中心(指已选择的聚类中心)的距离D(x);

4.选择一个新的数据点作为新的聚类中心，选择的原则是：D(x)较大的点被选取为聚类中心的概率较大；

5.重复3和4两个步骤直到K个聚类中心被选出来；

6.利用这K个初始的聚类中心运行标准的K-Means算法；

简单来说就是选择中心点时各中心点的距离要做到尽可能的远。

KMeans聚类算法伪代码实现：

简单的伪代码实现：

选择K个点作为初始质心  
repeat  
    将每个点指派到最近的质心，形成K个簇  
    重新计算每个簇的质心  
until 簇不发生变化或达到最大迭代次数

详细的伪代码实现：

创建 k 个点作为起始质心 (随机选择):
    当任意一个点的簇分配结果发生改变的时候:
        对数据集中的每个数据点:
            对每个质心:
                计算质心与数据点之间的距离
            将数据点分配到距其最近的簇
        对每一个簇:
            求出均值并将其更新为质心