K-means算法_k-means算法是否在初始时就确定了分类的数量-CSDN博客

本文链接：https://blog.csdn.net/qq_41934490/article/details/100638031

1.算法思想
Kmeans算法是一个重复移动类中心点的过程，把类的中心点，也称重心(centroids)，移动到其包含成员的平均位置，然后重新划分其内部成员。k是算法计算出的超参数，表示类的数量；Kmeans可以自动分配样本到不同的类，但是不能决定究竟要分几个类。k必须是一个比训练集样本数小的正整数。有时，类的数量是由问题内容指定的。例如，一个鞋厂有三种新款式，它想知道每种新款式都有哪些潜在客户，于是它调研客户，然后从数据里找出三类。也有一些问题没有指定聚类的数量，最优的聚类数量是不确定的。后面我将会详细介绍一些方法来估计最优聚类数量。

a .核心思想
通过迭代寻找k个类簇的一种划分方案，使得用这k个类簇的均值来代表相应各类样本时所得的总体误差最小。
k个聚类具有以下特点：各聚类本身尽可能的紧凑，而各聚类之间尽可能的分开。
k-means算法的基础是最小误差平方和准则,
b.K-menas的优缺点：
优点：原理简单速度快对大数据集有比较好的伸缩性
缺点：需要指定聚类数量K 对异常值敏感对初始值敏感
c.K-means的聚类过程
其聚类过程类似于梯度下降算法，建立代价函数并通过迭代使得代价函数值越来越小
适当选择c个类的初始中心；
在第k次迭代中，对任意一个样本，求其到c个中心的距离，将该样本归到距离最短的中心所在的类；
利用均值等方法更新该类的中心值；
对于所有的c个聚类中心，如果利用（2）（3）的迭代法更新后，值保持不变，则迭代结束，否则继续迭代。

2.代码实现
首先，这里我们用sklearn库中datasets里的make_blobs函数产生数据
make_blobs函数：生成各向同性高斯blob用于聚类在这里插入图片描述
随机初始化中心点
更新中心点