K-means

最新推荐文章于 2024-06-25 13:31:56 发布

YangHongChao001

最新推荐文章于 2024-06-25 13:31:56 发布

阅读量175

点赞数

分类专栏：算法机器学习统计模型

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/modern_times/article/details/79602324

版权

算法同时被 2 个专栏收录

20 篇文章 0 订阅

订阅专栏

机器学习统计模型

9 篇文章 1 订阅

订阅专栏

1.归类:

聚类（clustering）属于非监督学习（UNsupervised learning）

无类别标记（class label）

2. K-means算法：

2.1 clustering中的经典算法，数据挖掘十大经典算法之一

2.2 算法接受参数K,然后将事先输入的n个对象划分为k个聚类以便使得所获得的聚类满足：同一聚类对象的相似度（大多数时候为距离的远近）较高，而不同聚类的对象相似度较小。

2.3 算法思想：

以空间的k个点为中心进行聚类，对最靠近他们的对象归类。通过迭代的方法，逐次更新各聚类中心的值，直至得到最好的聚类结果

2.4 算法描述：

（1）适当选择c个类的初始中心；

（2）在第m次迭代，对任一一个样本，求其到c各中心的距离，将样本归到距离最短的中心所在的类；

（3）利用均值等方法更新该类的中心；

（4）对于所有的c个聚类中心，如果利用（2）（3）的迭代更新后，值保持不变，则迭代结束，否则继续迭代。

2.5 算法流程：

输入： K，data[n];

(1) 选择k个初始中心点，例如c[0] = data[0],...,c[k]=data[k-1]

(2) 对于data[0],...,data[n],分别与c[i]比较，假定与c[i]差值最小，就标记为i；

（3）对于多有标记为i的点，重新计算c[i] = {所有标记为data[j]之和}/标记为i的个数；（此处是重新找聚类中心，即标记为i的类的样本的中心）

（4）重复（2），（3），直到所有的c[i]值的变化小于给定的阈值。或者达到给定的迭代上限。

注意：

算法优点：速度快，简单

缺点：（1）最终的结果跟初始点选择相关，（2）容易陷入局部最优，（3）需要直到k值。、

YangHongChao001

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。