一个确定初始聚类中心的更好方法

最新推荐文章于 2024-07-06 06:30:00 发布

tyh70537

最新推荐文章于 2024-07-06 06:30:00 发布

阅读量1.2w

点赞数 5

分类专栏：聚类算法文章标签：初始聚类中心 k-means 聚类算法

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/tyh70537/article/details/78174435

版权

聚类算法专栏收录该内容

9 篇文章 3 订阅

订阅专栏

初始聚类中心的选择对k-means算法的效果有非常显著的影响，不合适的初始聚类中心可能导致：
1，算法收敛速度降低
2，更大的可能使聚类结果收敛到一个较差的局部最小值
3，某些簇最后是个空集（样本量较小时这种情况经常出现）

经典的k-means算法的初始聚类中心是随机选取的，这种方式有两种不足：
1，某些初始聚类中心可能离群体太远，如下图

2，有的聚类中心可能相互之间隔得太近

为了克服这些缺点，比较流行的方法是maxmin法，即：
首先随机选择一个点作为第一个初始类簇中心点，然后选择距离该点最远的那个点作为第二个初始类簇中心点，然后再选择距离前两个点的最近距离最大的点作为第三个初始类簇的中心点，以此类推，直至选出K个初始类簇中心点。网上介绍的大部分是这个方法。http://www.sciencedirect.com/science/article/pii/S0957417412008767更推荐其他更好的方法，今天介绍其中一个。
step1：将从数据集中抽取J个较小的子集 $S_i,i=1,2,...,J$

step2：利用经典的k-means算法（随机选择初始聚类中心）对 $S_i$ 进行聚类，返回 $CM_i，CM_i$ 是个k维向量，表示对第 $i$ 个子集进行聚类后返回的聚类中心点

step3： $CM = [CM_1,CM_2...,CM_J]$

step4：分别以CM_i为初始聚类中心，再次利用经典的k-means算法对 $CM$ 进行聚类，返回 $FM_i，FM_i$ 也是聚类后得到的K个聚类中心点

step5：计算 $FM_i$ 与 $CM$ 的距离平方和(sum 0f squared distance，SSM)，选取具有最小SSM的 $FM_i$ 作为最终的初始聚类中心
感兴趣的可以去看原文，地址：https://xue.glgoo.org/scholar?hl=zh-CN&as_sdt=0%2C5&q=Refining+Initial+Points+for+K-Means+Clustering&btnG=

关注

5
点赞
踩
16

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

tyh70537 CSDN认证博客专家 CSDN认证企业博客

码龄9年

19: 原创

13万+: 周排名

230万+: 总排名

15万+: 访问

: 等级

1328: 积分

35: 粉丝

98: 获赞

55: 评论

382: 收藏

私信

关注

热门文章

分类专栏

最新评论

单连接算法与全连接算法
Panda@PKU: 图例非常清楚！终于把全连接算法搞明白了
单连接算法与全连接算法
Panda@PKU: G(3): 虽然2和5相连，但2，3，5并没有构成一个最大完全子图，所以G(3)阶段没有新簇产生。没有新簇，在树状图中也就不能优先相连，这是全连接特点。单连接算法的话，23就会先跟5连
通用对抗样本 Universal Adversarial Example
yz694229541: 论文里算法终止条件是目标模型的准确率低于1 − δ ，下面代码里哪里体现了这一终止条件？
k-modes聚类算法介绍
tyh70537: 男女，是否，头发根数
k-modes聚类算法介绍
爱学控制的猫: 什么是离散属性的数据集？举个例子

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。