机器学习第三讲 K-means细节与面试常考问题_机器学习 kmeans算法流程考试简答题-CSDN博客

本文链接：https://blog.csdn.net/Liaogic/article/details/100189902

K-means作为面试过程中常考的算法，一定要对下面问题十分熟悉

K-means算法过程
Step1：从数据集D中随机选择k个样本作为初始的k个质心向量
Step2：计算数据集中样本Xi分别到k个质心的欧几里得距离d1, d2……dk. 于是我们得到与Xi距离最小的质心并且把Xi划分到和这个质心同一cluster中。
Step3：对数据集中所有样本进行Step2操作
Step4：重新计算k个簇里面的向量均值（就是把k个质心在新的簇下刷新一遍），然后重复Step2- Step4。直到所有的k个质心向量都没有发生变化。
K-means算法中初始点的选择对最终结果有影响吗？
合理的确定K个初始类簇中心点对于聚类效果的好坏有很大的影响，不然会导致长时间无法收敛并且得到的是局部最优。
K-means聚类中每个类别中心的初始点如何选择？
1）随机法
最简单的确定初始类簇中心点的方法是随机选择K个点作为初始的类簇中心点。
2）选择各批次距离尽可能远的k个点，首先随机选择一个点作为第一个初始类簇中心点，然后选择距离该点最远的那个点作为第二个初始类簇中心点，然后再选择距离前两个点的最近距离最大的点作为第三个初始类簇的中心点，以此类推，直到选出k个初始类簇中心。
3）层次聚类或者Canopy预处理，选择中心点。选用层次聚类或者Canopy算法进行初始聚类，然后利用这些类簇的中心点作为Kmeans算法初始类簇中心点。
K-means中的k如何选择
比较类内距离、类间距离以确定K。这个也是最常用的办法，如使用平均轮廓系数，越趋近1聚类效果越好；如计算类内距离/类间距离，值越小越好；等。按需选择法，观察法，手肘法也行。
K-Means与KNN有什么区别
1）KNN是分类算法，K-means是聚类算法；
2）KNN是监督学习，K-means是非监督学习
K-means是否会一直陷入选择质心的循环停不下来？
不会，有数学证明Kmeans一定会收敛，大概思路是利用SSE的概念（也就是误差平方和），即每个点到自身所归属质心的距离的平方和，这个平方和是一个凸函数，通过迭代一定可以到达它的局部最优解。
如何对K-means聚类效果进行评估？
轮廓系数（Silhouette Coefficient），是聚类效果好坏的一种评价方式。最早由 Peter J. Rousseeuw 在 1986 提出。它结合内聚度和分离度两种因素。可以用来在相同原始数据的基础上用来评价不同算法、或者算法不同运行方式对聚类结果所产生的影响。