聚类属于无监督学习,以往的回归、朴素贝叶斯、SVM等都是有类别标签y的,也就是说样例中已经给出了样例的分类。
在聚类问题中,给我们的训练样本是,每个。
K-means算法是将样本聚类成k个簇,K是我们事先给定的聚类数。K-means完全可以保证收敛性。
重复迭代第一步和第二步直到质心不变或者变化很小。
定义畸变函数
描述一下收敛性。J函数表示每个样本点到其质心的距离平方和。K-means是要将J调整到最小。k-means对质心初始位置的选取比较感冒,但一般情况下k-means达到的局部最优已经满足需求。但如果你怕陷入局部最优,那么可以选取不同的初始值跑多遍k-means,然后取其中最小的J对应的和c输出。