【数据分析/商业分析】面试知识点——K-Means聚类

最新推荐文章于 2024-05-14 11:57:23 发布

WinniToast

最新推荐文章于 2024-05-14 11:57:23 发布

阅读量1k

点赞数

文章标签：面试数据分析

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/awater_17/article/details/124577138

版权

K-Means

1.简述K-Means算法

原理：将样本分为K个类，类内拥有高相似度，类间相似度较低
计算过程：①随机选取K个对象，作为K个类各自的中心
②对剩余样本，计算与每个类中心的距离，将它赋给最近的类
③根据聚类的结果，重新计算每个类的类中心（取类中所有元素各自维度的算术平均数）
④将元素全部按照新的类中心重新聚类
⑤重复③④步，直到聚类结果不再变化为止
优化函数：（算法即优化成本函数）
优点：简单易行，效果较好，只需要调一个参数K
缺点：受初始类中心影响，可能会产生局部最优解。
对于不是凸的数据集比较难收敛；
对隐含类别数据不平衡的数据分类效果不佳；
对异常值较为敏感。

2.对于K值的选取：肘部原则

3.距离度量方法：欧几里得距离、余弦相似度

4.初始类中心选取：

①基于距离的随机选择：随机选择一个点作为第一个类中心，再随机选择离已选点远的点作为下一个类中心。（更有可能选择“远且附近有很多点” 的样本）
②随机选取
③先使用层次聚类进行初始聚类

5.初始质心的选择对结果的影响：结果可能会随着质心的不同而不同、初始类中心的不同可能会使该算法陷入局部最优解

6.空类如何处理：

最低0.47元/天解锁文章

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
打赏
0
评论
【数据分析/商业分析】面试知识点——K-Means聚类

K-Means1.简述K-Means算法原理：将样本分为K个类，类内拥有高相似度，类间相似度较低计算过程：①随机选取K个对象，作为K个类各自的中心②对剩余样本，计算与每个类中心的距离，将它赋给最近的类③根据聚类的结果，重新计算每个类的类中心（取类中所有元素各自维度的算术平均数）④将元素全部按照新的类中心重新聚类⑤重复③④步，直到聚类结果不再变化为止优化函数：（算法即优化成本函数）优点：简单易行，效果较好，只需要调一个参数K缺点：受初始类中心影响，可能会产生局部最优解。对于不是凸的数据集
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

WinniToast 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。