K-Means算法中k值及初始类簇中心点的选取

最新推荐文章于 2021-10-21 09:49:55 发布

一枚小码农

最新推荐文章于 2021-10-21 09:49:55 发布

阅读量6.7k

点赞数 4

分类专栏：机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/sinat_25394043/article/details/104126723

版权

机器学习专栏收录该内容

13 篇文章 0 订阅

订阅专栏

1 k值的选择

手肘法

手肘法的核心指标是SSE(sum of the squared errors，误差平方和)，

其中，Ci是第i个簇，p是Ci中的样本点，mi是Ci的质心（Ci中所有样本的均值），SSE是所有样本的聚类误差，代表了聚类效果的好坏。

手肘法的核心思想是：随着聚类数k的增大，样本划分会更加精细，每个簇的聚合程度会逐渐提高，那么误差平方和SSE自然会逐渐变小。并且，当k小于真实聚类数时，由于k的增大会大幅增加每个簇的聚合程度，故SSE的下降幅度会很大，而当k到达真实聚类数时，再增加k所得到的聚合程度回报会迅速变小，所以SSE的下降幅度会骤减，然后随着k值的继续增大而趋于平缓，也就是说SSE和k的关系图是一个手肘的形状，而这个肘部对应的k值就是数据的真实聚类数。当然，这也是该方法被称为手肘法的原因。

轮廓系数

该方法的核心指标是轮廓系数（Silhouette Coefficient），某个样本点Xi的轮廓系数定义如下：

其中，a是Xi与同簇的其他样本的平均距离，称为凝聚度，b是Xi与最近簇中所有样本的平均距离，称为分离度。而最近簇的定义是

其中p是某个簇Ck中的样本。事实上，简单点讲，就是用Xi到某个簇所有样本平均距离作为衡量该点到该簇的距离后，选择离Xi最近的一个簇作为最近簇。

求出所有样本的轮廓系数后再求平均值就得到了平均轮廓系数。平均轮廓系数的取值范围为[-1,1]，且簇内样本的距离越近，簇间样本距离越远，平均轮廓系数越大，聚类效果越好。那么，很自然地，平均轮廓系数最大的k便是最佳聚类数。

Gap Statistic

可参考这里 K-Means算法之K值的选择

2 初始类簇中心点的选取

随机选择K个点作为初始的类簇中心点，但是该方法在有些情况下的效果较差
选择批次距离尽可能远的K个点

首先随机选择一个点作为第一个初始类簇中心点，然后选择距离该点最远的那个点作为第二个初始类簇中心点，然后再选择距离前两个点的最近距离最大的点作为第三个初始类簇的中心点，以此类推，直至选出K个初始类簇中心点。

选用层次聚类或者Canopy算法进行初始聚类，然后利用这些类簇的中心点作为KMeans算法初始类簇中心点

References

机器学习-KMeans聚类 K值以及初始类簇中心点的选取

K-means聚类最优k值的选取

K-Means算法之K值的选择

一枚小码农

关注

4
点赞
踩
16

收藏

觉得还不错? 一键收藏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

一枚小码农 CSDN认证博客专家 CSDN认证企业博客

码龄10年

97: 原创

5万+: 周排名

120万+: 总排名

29万+: 访问

: 等级

3401: 积分

79: 粉丝

173: 获赞

27: 评论

1000: 收藏

私信

关注

热门文章

分类专栏

NLP 39篇
Neo4j 1篇
Pandas 3篇
Python 1篇
深度学习 8篇
机器学习 13篇
C++ 16篇
数据结构与算法 4篇
MySQL 1篇
深入探索C++对象模型 6篇

最新评论

移动构造函数
qq_40833093: 代码屎一样，变量名都没整明白
为什么bagging降低方差，boosting降低偏差？
weixin_57724293: 讲的很不错
K-Means算法中k值及初始类簇中心点的选取
淮北494: 首先随机选择一个点作为第一个初始类簇中心点，然后选择距离该点最远的那个点作为第二个初始类簇中心点，然后再选择距离前两个点的最近距离最大的点作为第三个初始类簇的中心点，以此类推，直至选出K个初始类簇中心点。，，应该如何实现了？
Learning to rank学习
子瑜是橘子味: 博主你好想请问你一下就是排序学习中数据集中的feature是什么含义呀以及该如何设置feature
安装python-Levenshtein包时遇到的问题
爱分享的杰克: 成功解决，谢谢

最新文章

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。