1.前言
最近在实现 K-means 算法的过程中,选用了 python 作为编程语言,由于平常编程用 java 比较多一点,所以对 python 并不是很熟,这就直接导致了后面踩了不少坑。也在网上参考了一些别人的代码,但很多代码都有一些小 bug,不能直接运行。折腾了一天,总算用 python 实现了 K-means 算法,记录下来,希望能给其它初学者提供一个参考,大神请无视。
2.K-means算法简介
K-means(K 均值)算法是机器学习中常用的一种简单的聚类算法,该算法属于划分式聚类算法。其中,K 表示需要将数据集划分成的簇的个数。在运用Kmeans算法时,由于我们一般不知道数据的分布情况,也就无从得知数据的分簇的数目,所以一般通过枚举来确定 k 的值。另外,在实际应用中,由于K-means一般作为数据预处理,或者用于辅助分类贴标签,所以 k 值一般不会设置很大。