kmeans算法python代码_kmeans算法用Python怎么实现

最新推荐文章于 2024-08-11 16:00:02 发布

英语语法陈老师

最新推荐文章于 2024-08-11 16:00:02 发布

阅读量1.2k

点赞数

文章标签： kmeans算法python代码

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_32338107/article/details/113583005

版权

本文介绍了KMeans聚类算法的基本思想和在MATLAB中的使用方法，包括数据点的创建和函数的调用。同时，文章探讨了KMeans算法的缺点，并详细阐述了KMeans++算法的优化策略，通过Python代码展示了如何实现KMeans++算法。最后，给出了一个完整的Python KMeans++聚类示例。

摘要由CSDN通过智能技术生成

展开全部

1、从Kmeans说起

Kmeans是一个非常基础的聚类算法，使用了迭代的思想，关于其原理这里不说62616964757a686964616fe58685e5aeb931333339666131了。下面说一下如何在matlab中使用kmeans算法。

创建7个二维的数据点：

复制代码代码如下:

x=[randn(3,2)*.4;randn(4,2)*.5+ones(4,1)*[4 4]];

使用kmeans函数：

复制代码代码如下:

class = kmeans(x, 2);

x是数据点，x的每一行代表一个数据；2指定要有2个中心点，也就是聚类结果要有2个簇。 class将是一个具有70个元素的列向量，这些元素依次对应70个数据点，元素值代表着其对应的数据点所处的分类号。某次运行后，class的值是：

复制代码代码如下:

2

2

2

1

1

1

1

这说明x的前三个数据点属于簇2，而后四个数据点属于簇1。 kmeans函数也可以像下面这样使用：

复制代码代码如下:

>> [class, C, sumd, D] = kmeans(x, 2)

class =

2

2

2

1

1

1

1

C =

4.0629 4.0845

-0.1341 0.1201

sumd =

1.2017

0.2939

D =

34.3727 0.0184

29.5644 0.1858

36.3511 0.0898

0.1247 37.4801

0.7537 24.0659

0.1979 36.7666

0.1256 36.2149

class依旧代表着每个数据点的分类;C包含最终的中心点，一行代表一个中心点；sumd代表着每个中心点与所属簇内各个数据点的距离之和；D的每一行也对应一个数据点，行中的数值依次是该数据点与各个中心点之间的距离，Kmeans默认使用的距离是欧几里得距离(参考资料[3])的平方值。kmeans函数使用的距离，也可以是曼哈顿距离(L1-距离)，以及其他类型的距离，可以通过添加参数指定。

kmeans有几个缺点(这在很多资料上都有说明)：

1、最终簇的类别数目(即中心点或者说种子点的数目)k并不一定能事先知道，所以如何选一个合适的k的值是一个问题。

2、最开始的种子点的选择的好坏会影响到聚类结果。

3、对噪声和离群点敏感。

4、等等。

2、kmeans++算法的基本思路

kmeans++算法的主要工作体现在种子点的选择上，基本原则是使得各个种子点之间的距离尽可能的大，但是又得排除噪声的影响。以下为基本思

最低0.47元/天解锁文章

英语语法陈老师

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。