K-Means
1.简述K-Means算法
原理:将样本分为K个类,类内拥有高相似度,类间相似度较低
计算过程:①随机选取K个对象,作为K个类各自的中心
②对剩余样本,计算与每个类中心的距离,将它赋给最近的类
③根据聚类的结果,重新计算每个类的类中心(取类中所有元素各自维度的算术平均数)
④将元素全部按照新的类中心重新聚类
⑤重复③④步,直到聚类结果不再变化为止
优化函数:(算法即优化成本函数)
优点:简单易行,效果较好,只需要调一个参数K
缺点:受初始类中心影响,可能会产生局部最优解。
对于不是凸的数据集比较难收敛;
对隐含类别数据不平衡的数据分类效果不佳;
对异常值较为敏感。
2.对于K值的选取:肘部原则
3.距离度量方法:欧几里得距离、余弦相似度
4.初始类中心选取:
①基于距离的随机选择:随机选择一个点作为第一个类中心,再随机选择离已选点远的点作为下一个类中心。(更有可能选择“远且附近有很多点” 的样本)
②随机选取
③先使用层次聚类进行初始聚类