sklearn之Kmeans算法

这篇博客介绍了如何使用sklearn库实现KMeans聚类算法。首先,通过numpy生成了两个数据集cluster1和cluster2,然后使用hstack进行数据拼接。接着,通过matplotlib绘制数据点分布图。进一步,引入scipy.spatial.distance模块计算欧氏距离,并使用KMeans进行聚类,通过肘部法则确定最佳的K值,展示了如何评估平均畸变程度。
摘要由CSDN通过智能技术生成

-- coding: UTF-8 --

import numpy as np
import matplotlib.pyplot as plt

随机生成一个实数,范围在(0.5,1.5)之间

cluster1=np.random.uniform(0.5,1.5,(2,10))
cluster2=np.random.uniform(3.5,4.5,(2,10))

hstack拼接操作

X=np.hstack((cluster1,cluster2)).T
plt.figure()
plt.axis([0,5,0,5])
plt.grid(True)
plt.plot(X[:,0],X[:,1],’k.’)

from sklearn.cluster import KMeans

用scipy求解距离

from scipy.spatial.distance import cdist
K=range(1,10)
meandistortions=[]
for k in K:
kmeans=KMeans(n_clusters=k)
kmeans.fit(X)
meandistortions.append(sum(np.min(
cdist(X,kmeans.cluster_centers_,
‘euclidean’),axis=1))/X.shape[0])
plt.plot(K,meandistortions,’bx-‘)
plt.xlabel(‘k’)
plt.ylabel(u’平均畸变程度’)
plt.title(u’用肘部法则来确定最佳的K值’)

plt.show()

这里写图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值