十五.K均值(K-means)聚类原理和sklearn实现

1.聚类

聚类是一种无监督的算法。当样本没有标签只有特征时,可以用聚类进行分类。

2.k-means聚类

k-means聚类的基本思想是最小化平方误差,可以理解为让同一个簇内的点尽量靠近。
假设样本可分为 k k k个簇,分别是 ( C 1 , C 2 , C 3 , . . . , C k ) (C_{1},C_{2},C_{3},...,C_{k}) (C1,C2,C3,...,Ck) C i C_{i} Ci是第 i i i个簇的样本合集,则最小化平方误差就是最小化下式:
E = ∑ i = 1 k ∑ x ∈ C i ( x − μ i ) 2 E=\sum_{i=1}^{k}\sum_{x\in C_{i}}(x-\mu _{i})^{2} E=i=1kxCi(xμi)2
其中, μ i \mu _{i} μi为第 i i i个簇的质心:
μ i = 1 ∣ C i ∣ ∑ x ∈ C i x \mu _{i}=\frac{1}{|C_{i}|}\sum_{x\in C_{i}}x μi=Ci1xCix

3.算法流程

E的求解和优化较复杂甚至是不可解,因此,K-means常用迭代法求解,具体流程如下:
(1)在样本集中随机选择 k k k个样本作为质心:
( μ 1 , μ 2 , μ 3 , . . . , μ k ) (\mu _{1},\mu _{2},\mu _{3},...,\mu _{k}) (μ1,μ2,μ3,...,μk)
(2)分别计算每个样本到每个质心的距离,将样本划入距离最小的簇:
d = ∑ i = 1 n ( x i − μ i ) 2 d=\sum_{i=1}^{n}\sqrt{(x_{i}-\mu _{i})^{2}} d=i=1n(xiμi)2
(3)将所有样本划分完毕后,重新计算每个簇的质心:
μ i = 1 ∣ C i ∣ ∑ x ∈ C i x \mu _{i}=\frac{1}{|C_{i}|}\sum_{x\in C_{i}}x μi=Ci1xCix
(4)重复(2)-(3)知道没有新的质心产生。

4.K-means++算法

k-means算法的初始质心选择是随机的,可能导致样本收敛速度过慢,k-means++优化了初始质心的选择方法。具体流程为:
(1)随机选择第一个质心 μ 1 \mu _{1} μ1
(2)计算数据集中的每一个点与其最近的质心的距离
(3)选择距离最大的点作为新的质心
(4)重复以上两步直到选择出 k k k个质心
(5)使用传统k-means算法

5.Mini Batch K-means

在k-means中,需要计算所有样本与质心的距离,这样会导致计算量巨大。
在Mini Batch K-Means,通过无放回的随机采样得到的选择一批样本数量适合的点进行传统的k-means聚类。

6.评估指标

由于聚类的样本没有输出,因此不能用精确度评价结果,常见的评估方法有轮廓系数Calinski-Harabasz:
s ( k ) = t r ( B k ) t r ( W k ) m − k k − 1 s(k)=\frac{tr(\mathbf{B}_{k})}{tr(\mathbf{W}_{k})}\frac{m-k}{k-1} s(k)=tr(Wk)tr(Bk)k1mk
其中, k k k为簇的数量, m m m为样本总数, B k \mathbf{B}_{k} Bk为类间协方差矩阵, W k \mathbf{W}_{k} Wk为类内协方差矩阵。类间距离越大,类内距离越小,效果越好。也就是说上式越大,聚类效果越好。

7.sklearn实现K-means

(1)数据集

生成数据。x为样本特征,y为样本簇类别,共1000个样本,每个样本2个特征,对应x和y轴,共4个簇,簇中心在[-1,-1], [0,0],[1,1], [2,2], 簇方差分别为[0.4, 0.2, 0.2]

from sklearn.datasets import make_blobs
import matplotlib.pyplot as plt
x,y = make_blobs(n_samples=1000,n_features=2,centers=[[-1, -1], [0, 0], [1, 1], [2, 2]],cluster_std=[0.4, 0.2, 0.2, 0.2], random_state=3)
plt.scatter(x[:,0],x[:,1])
plt.show()

输出:
在这里插入图片描述

(2)2簇k-means

设置为2个簇的KMeans模型,并且评估聚类效果:

from sklearn.cluster import KMeans
from sklearn.metrics import calinski_harabasz_score
model = KMeans(n_clusters=2)
model.fit(x)
y_pred = model.predict(x)
score = calinski_harabasz_score(x,y_pred)
plt.scatter(x[:,0],x[:,1],c=y_pred)
plt.text(1,-2,'k=%d, score: %.2f' % (2, score))
plt.show()

输出:
在这里插入图片描述

(3)4簇k-means

设置为2个簇的KMeans模型,并且评估聚类效果:

model2 = KMeans(n_clusters=4)
y_pred = model2.fit_predict(x)
score = calinski_harabasz_score(x,y_pred)
plt.scatter(x[:,0],x[:,1],c=y_pred)
plt.text(1,-2,'k=%d, score: %.2f' % (4, score))
plt.show()

输出:
在这里插入图片描述

(4)MiniBatchKMeans

使用MiniBatchKMeans,分别训练2,3,4,5个簇时的模型并评价结果:

from sklearn.cluster import MiniBatchKMeans
from sklearn.metrics import calinski_harabasz_score
for index, k in enumerate((2,3,4,5)):
    plt.subplot(2,2,index+1)
    y_pred = MiniBatchKMeans(n_clusters=k, batch_size = 200, random_state=9).fit_predict(x)
    score= calinski_harabasz_score(x, y_pred)  
    plt.scatter(x[:, 0], x[:, 1], c=y_pred)
    plt.text(.99, .01, ('k=%d, score: %.2f' % (k,score)),
                 transform=plt.gca().transAxes, size=10,
                 horizontalalignment='right')
plt.show()

在这里插入图片描述

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值