【数据分析/商业分析】面试知识点——K-Means聚类

K-Means

1.简述K-Means算法

原理:将样本分为K个类,类内拥有高相似度,类间相似度较低
计算过程:①随机选取K个对象,作为K个类各自的中心
②对剩余样本,计算与每个类中心的距离,将它赋给最近的类
③根据聚类的结果,重新计算每个类的类中心(取类中所有元素各自维度的算术平均数)
④将元素全部按照新的类中心重新聚类
⑤重复③④步,直到聚类结果不再变化为止
优化函数:(算法即优化成本函数)
优点:简单易行,效果较好,只需要调一个参数K
缺点:受初始类中心影响,可能会产生局部最优解。
对于不是凸的数据集比较难收敛;
对隐含类别数据不平衡的数据分类效果不佳;
对异常值较为敏感。

2.对于K值的选取:肘部原则
3.距离度量方法:欧几里得距离、余弦相似度
4.初始类中心选取:

①基于距离的随机选择:随机选择一个点作为第一个类中心,再随机选择离已选点远的点作为下一个类中心。(更有可能选择“远且附近有很多点” 的样本)
②随机选取
③先使用层次聚类进行初始聚类

5.初始质心的选择对结果的影响:结果可能会随着质心的不同而不同、初始类中心的不同可能会使该算法陷入局部最优解
6.空类如何处理:
  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

WinniToast

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值