K-means
已知样本集,其中每一个观测都是d-维实向量 ,K-means要把这m个样本划分到k个集合中(k ≤ m),使得组内平方和(WCSS)最小。
标准算法
最常用的算法使用了迭代优化的技术。它被称为K-means而广为使用,有时也被称为Lloyd算法(尤其在计算机科学领域)。已知初始的k个聚类质心点,算法按照下面两个步骤交替进行。
- 分配(Assignment):将每个样本i分配到聚类中,使得组内平方和(WCSS)达到最小。
- 更新(Update):对于上一步得到的每一个聚类,以聚类中样本值的图心,作为新的均值点。
K-means面对的第一个问题是如何保证收敛,首先可以固定每个类的质心 ,调整每个样本的所属类别 来让WCSS减小;同样固定 ,调整每个类的质心 也可以