K均值分类——一分钟学会无监督学习算法

最新推荐文章于 2024-09-23 16:48:25 发布

cyphappy

最新推荐文章于 2024-09-23 16:48:25 发布

阅读量1.3k

点赞数 1

分类专栏：数据分析和机器学习文章标签：机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/cyphappy/article/details/105434790

版权

本文介绍了K-Means算法的基本思想，包括将样本集划分为紧密簇和最大化簇间距离。讨论了K-Means的传统算法流程，并介绍了K-means++、elkan_K-means和Mini Batch K-Means等改进算法。此外，文章还探讨了确定最佳K值的方法，如拐点法、轮廓系数和间隔统计量。

摘要由CSDN通过智能技术生成

简单的K均值聚类k-means clustering algorithm

基本思想
算法及改进算法
一个不得回避的问题

基本思想

K-Means算法就是对于给定的样本集，按照样本之间的距离大小，将样本集划分为K个簇。让簇内的点尽量紧密的连在一起，而让簇间的距离尽量的大。
用数学表达式就是：
假设簇划分为 $C_1,C_2,...C_k)$ 则我们的误差E就是： $\sum\limits_{i=1}^k\sum\limits_{x \in C_i} ||x-\mu_i||_2^2$
其中 $μ_i$ 是簇Ci的均值向量.

在这里插入图片描述

如图，我们任意选取两个初值点为中心，计算各点到中心的距离，将他们划分到距离最近的簇。第二次循环，用各族的平均向量做为中心，继续上面操作。直到质心几乎不变。
可以证明，当中心为族的样本均值，代价函数最小，这也说明算法的合理性。

算法及改进算法

传统算法

选取K
从数据集D中随机选择k个样本作为初始的k个质心向量： $\{\mu_1,\mu_2,...,\mu_k\}$

最低0.47元/天解锁文章

关注

1
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。