python数据分类聚类案例_Python实现的KMeans聚类算法实例分析

最新推荐文章于 2024-07-07 15:59:16 发布

weixin_39782752

最新推荐文章于 2024-07-07 15:59:16 发布

阅读量1.8k

点赞数 2

文章标签： python数据分类聚类案例

本文实例讲述了Python实现的KMeans聚类算法。分享给大家供大家参考，具体如下：

菜鸟一枚，编程初学者，最近想使用Python3实现几个简单的机器学习分析方法，记录一下自己的学习过程。

关于KMeans算法本身就不做介绍了，下面记录一下自己遇到的问题。

一、关于初始聚类中心的选取

初始聚类中心的选择一般有：

（1）随机选取

（2）随机选取样本中一个点作为中心点，在通过这个点选取距离其较大的点作为第二个中心点，以此类推。

（3）使用层次聚类等算法更新出初始聚类中心

我一开始是使用numpy随机产生k个聚类中心

Center = np.random.randn(k,n)

但是发现聚类的时候迭代几次以后聚类中心会出现nan，有点搞不清楚怎么回事

所以我分别尝试了：

（1）选择数据集的前K个样本做初始中心点

（2）选择随机K个样本点作为初始聚类中心

发现两者都可以完成聚类，我是用的是iris.csv数据集，在选择前K个样本点做数据集时，迭代次数是固定的，选择随机K个点时，迭代次数和随机种子的选取有关，而且聚类效果也不同，有的随机种子聚类快且好，有的慢且差。

def InitCenter(k,m,x_train):

#Center = np.random.randn(k,n)

#Center = np.array(x_train.iloc[0:k,:]) #取数据集中前k个点作为初始中心

Center = np.zeros([k,n]) #从样本中随机取k个点做初始聚类中心

np.random.seed(5) #设置随机数种子

for i in range(k):

x = np.random.randint(m)

Center[i] = np.array(x_train.iloc[x])

return Center

二、关于类间距离的选取

为了简单，我直接采用了欧氏距离，目前还没有尝试其他的距离算法。

def GetDistense(x_train, k, m, Center):

Distence=[]

for j in range(k):

for i in range(m):

x = np.array(x_train.iloc[i, :])

a = x.T - Center[j]

Dist = np.sqrt(np.sum(np.square(a))) # dist = np.linalg.norm(x.T - Center)

Distence.append(Dist)

Dis_array = np.array(Distence).reshape(k,m)

return Dis_array

三、关于终止聚类条件的选取

关于聚类的终止条件有很多选择方法：

（1）迭代一定次数

（2&#

最低0.47元/天解锁文章

weixin_39782752

关注

2
点赞
踩
10

收藏

觉得还不错? 一键收藏
0
评论
python数据分类聚类案例_Python实现的KMeans聚类算法实例分析

本文实例讲述了Python实现的KMeans聚类算法。分享给大家供大家参考，具体如下：菜鸟一枚，编程初学者，最近想使用Python3实现几个简单的机器学习分析方法，记录一下自己的学习过程。关于KMeans算法本身就不做介绍了，下面记录一下自己遇到的问题。一、关于初始聚类中心的选取初始聚类中心的选择一般有：（1）随机选取（2）随机选取样本中一个点作为中心点，在通过这个点选取距离其较大的点作为第二个...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。