kmeanssklearn实例_sklearn KMeans聚类算法（总结）

最新推荐文章于 2023-12-12 20:27:06 发布

秀云南

最新推荐文章于 2023-12-12 20:27:06 发布

阅读量782

点赞数 2

文章标签： kmeanssklearn实例

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_33282146/article/details/114318662

版权

基本原理

Kmeans是无监督学习的代表，没有所谓的Y。主要目的是分类，分类的依据就是样本之间的距离。比如要分为K类。步骤是：

随机选取K个点。

计算每个点到K个质心的距离，分成K个簇。

计算K个簇样本的平均值作新的质心

循环2、3

位置不变，距离完成

距离

Kmeans的基本原理是计算距离。一般有三种距离可选：

欧氏距离

\[

d(x,u)=\sqrt{\sum_{i=1}^n(x_i-\mu_i)^2}

\]

曼哈顿距离

\[

d(x,u)=\sum_{i=1}^n(|x_i-\mu|)

\]

余弦距离

\[

cos\theta=\frac{\sum_{i=1}^n(x_i*\mu)}{\sqrt{\sum_i^n(x_i)^2}*\sqrt{\sum_1^n(\mu)^2}}

\]

inertia

每个簇内到其质心的距离相加，叫inertia。各个簇的inertia相加的和越小，即簇内越相似。(但是k越大inertia越小，追求k越大对应用无益处)

代码

模拟数据：

from sklearn.datasets import make_blobs

import matplotlib.pyplot as plt

X, y = make_blobs(n_samples=500, # 500个样本

n_features=2, # 每个样本2个特征

centers=4, # 4个中心

random_state=1 #控制随机性

)

画出图像：

color = ['red', 'pink','orange','gray']

fig, axi1=plt.subplots(1)

for i in range(4):

axi1.scatter(X[y==i, 0], X[y==i,1],

marker='o',

s=8,

c=color[i]

)

plt.show()

使用KMeans类建模：

from sklearn.cluster import KMeans

n_clusters=3

cluster = KMeans(n_clusters=n_clusters,random_state=0).fit(X)

也可先用fit, 再用predict，但是可能数据不准确。用于数据量较大时。

此时就可以查看其属性了：质心、inertia.

centroid=cluster.cluster_centers_

centroid # 查看质心

查看inertia:

inertia=cluster.inertia_

inertia

画出所在位置。

color=['red','pink','orange','gray']

fig, axi1=plt.subplots(1)

for i in range(n_clusters):

axi1.scatter(X[y_pred==i, 0], X[y_pred==i, 1],

marker='o',

s=8,

c=color[i])

axi1.scatter(centroid[:,0],centroid[:,1],marker='x',s=100,c='black')

关注

2
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
kmeanssklearn实例_sklearn KMeans聚类算法（总结）

基本原理Kmeans是无监督学习的代表，没有所谓的Y。主要目的是分类，分类的依据就是样本之间的距离。比如要分为K类。步骤是：随机选取K个点。计算每个点到K个质心的距离，分成K个簇。计算K个簇样本的平均值作新的质心循环2、3位置不变，距离完成距离Kmeans的基本原理是计算距离。一般有三种距离可选：欧氏距离\[d(x,u)=\sqrt{\sum_{i=1}^n(x_i-\mu_i)^2}\]曼哈顿距...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。