划分聚类——Kmeans算法

最新推荐文章于 2022-10-17 21:16:03 发布

云聪

最新推荐文章于 2022-10-17 21:16:03 发布

阅读量1.9k

点赞数

分类专栏：机器学习机器学习算法文章标签：机器学习聚类 Kmeans算法

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/l294265421/article/details/52434106

版权

机器学习同时被 2 个专栏收录

14 篇文章 0 订阅

订阅专栏

机器学习算法

13 篇文章 5 订阅

订阅专栏

划分聚类
聚类是针对一堆没有类别属性的对象的，它把这一大堆对象分成一些小堆，并保证小堆内的对象之间彼此相似，小堆之间的对象彼此不同。划分聚类是聚类的一种，由它生成的小堆，小堆间没有一样的元素，大堆小堆之间关系和大集合与它的的分割一样。

Kmeans算法
设数据点(对象)的集合为：
$\{x_1, x_2, ..., x_n\}$
其中， $x_i = \{x_{i1}, x_{i2}, ..., x_{ir}\}$ 是实数空间 $R^{r}$ 中的向量，r是数据的属性数目。Kmeans算法把数据点集合划分成k个聚类；每个聚类有一个中心，中心是聚类中所有成员向量的均值；这就是算法名字的由来。算法的伪代码如下：
这里写图片描述
其中, k是指定的要生成的聚类数目，D是数据点集合。
从算法伪代码中可以看到，算法开始时，从数据点集合中任意选取k个点作为初始的聚类中心；然后开始迭代，直至满足迭代终止条件为止。每一次迭代，都计算每一个点到k个聚类中心的距离，把数据点分配给离自己最近的中心，得到k个聚类，然后根据k个聚类现有的成员计算新的聚类中心。终止条件可以是下面三个之一：

没有(或最小数目)数据点被重新分配给不同的聚类。
没有(或最小数目)聚类中心再发生变化。
误差平方和(Sum of Squares for Error, SSE)局部最下
$SSE = \sum_{j=1}^k\sum_{x \in C_j}dist(x, m_j)^2$
其中，k表示需要的聚类数目， $C_j$ 表示第j个聚类， $m_j$ 表示第j个聚类的聚类中心， $dist(x, m_j)$ 表示数据点和聚类中心间的聚类。

参考资料：
《Web数据挖掘》第2版，Bing Liu 著，俞勇译
《数据挖掘概念与技术》第3版，Jiawei Han，Micheline Kamber，Jian Pei 著，范明，孟小峰译

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
划分聚类——Kmeans算法

划分聚类聚类是针对一堆没有类别属性的对象的，它把这一大堆对象分成一些小堆，并保证小堆内的对象之间彼此相似，小堆之间的对象彼此不同。划分聚类是聚类的一种，由它生成的小堆，小堆间没有一样的元素，大堆小堆之间关系和大集合与它的的分割一样。
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。