1.简述kmeans流程
随机选择k个结点作为聚类中心,依次计算所有结点到距离中心的距离,将新的结点划分到与其最近的聚类中心所在的簇,更新聚类中心点,重复次过程,直至所有的数据所属的簇不在发生变化为止
2.kmeans对异常值是否敏感?为何?
敏感,因为K-mean需要计算距离,异常值会导致距离变化,从而分类错误
3.如何评估聚类效果
兰德系数
调整兰德系数
轮廓系数
4.超参数k如何选择?
肘部法则:遍历不同的K,计算代价函数,并画出代价函数变化趋势,选择使代价函数变平缓的点所对应得K值
5.kmeans算法的优缺点(各说三个)
优点:原理简单,易于实现;可解释性强;参数少
缺点:计算量大,速度慢;数据量大时不适用;对异常值敏感