《菜菜的机器学习sklearn课堂》聚类算法Kmeans

在这里插入图片描述

sklearn中的聚类算法


聚类算法在sklearn中有两种表现形式:

  • (和我们之前学过的分类算法以及数据预处理方法一样)

需要实例化,训练并使用接口和属性来调用结果

  • 函数(function)

只需要输入特征矩阵和超参数,即可返回聚类的结果和各种指标

在这里插入图片描述

在这里插入图片描述

注意:该模块中实现的算法可以采用不同类型的矩阵作为输入

  • 所有方法都接受形状[n_samples,n_features]的标准特征矩阵

这些可以从sklearn.feature_extraction模块中的类中获得

  • 对于亲和力传播,光谱聚类和DBSCAN 还可以输入形状[n_samples, n_samples]的相似性矩阵

可以使用sklearn.metrics.pairwise模块中的函数来获取相似性矩阵

KMeans

=========================================================================

KMeans是如何工作的


作为聚类算法的典型代表,KMeans可以说是最简单的聚类算法没有之一,那它是怎么完成聚类的呢?


关键概念:簇与质心

KMeans算法将一组N个样本的特征矩阵X划分为K个无交集的簇,直观上来看是簇是一组一组聚集在一起的数据,在一个簇中的数据就认为是同一类;簇就是聚类的结果表现。

簇中所有数据的均值 μ \mu μ通常被称为这个簇的质心(centroids)。在一个二维平面中,一簇数据点的质心的横坐标就是这一簇数据点的横坐标的均值,质心的纵坐标就是这一簇数据点的纵坐标的均值。同理可推广至高维空间。


在KMeans算法中,簇的个数K是一个超参数,需要我们人为输入来确定。KMeans的核心任务就是根据我们设定好的K,找出K个最优的质心,并将离这些质心最近的数据分别分配到这些质心代表的簇中去。具体过程可以总结如下:

| 顺序 | 过程 |

| — | — |

| 1 | 随机抽取K个样本作为最初的质心 |

| 2 | 开始循环: |

| 2.1 | 将每个样本点分配到离他们最近的质心,生成K个簇 |

| 2.2 | 对于每个簇,计算所有被分到该簇的样本点的平均值作为新的质心 |

| 3 | 当质心的位置不再发生变化,迭代停止,聚类完成 |

什么情况下,质心的位置会不再变化呢?

  • 当我们找到一个质心,在每次迭代中被分配到这个质心上的样本都是一致的,即每次新生成的簇都是一致的,所有的样本点都不会再从一个簇转移到另一个簇,质心就不会变化了。

这个过程在可以由下图来显示,我们规定将数据分为4(K=4),其中白色X代表质心的位置:

在这里插入图片描述

在这里插入图片描述

可以看见,第六次迭代之后,基本上质心的位置就不再改变了,生成的簇也变得稳定。此时我们的聚类就完成了,我们可以明显看出,KMeans按照数据的分布,将数据聚集成了我们规定的4类,接下来我们就可以按照我们的业务需求或者算法需求,对这四类数据进行不同的处理。

簇内误差平方和的定义和解惑


聚类算法聚出的类有什么含义呢?这些类有什么样的性质?

我们认为,被分在同一个簇中的数据是有相似性的,而不同簇中的数据是不同的,当聚类完毕之后,我们就要分别去研究每个簇中的样本都有什么样的性质,从而根据业务需求制定不同的商业或者科技策略。

这个听上去和评分卡案例中讲解的“分箱”概念有些类似,即我们分箱的目的是希望:一个箱内的人有着相似的信用风险,而不同箱的人的信用风险差异巨大,以此来区别不同信用度的人,因此我们追求“组内差异小,组间差异大”。

聚类算法也是同样的目的,我们追求“簇内差异小,簇外差异大”。而这个“差异“,由样本点到其所在簇的质心的距离来衡量。

对于一个簇来说,所有样本点到质心的距离之和越小,我们就认为这个簇中的样本越相似,簇内差异就越小。而距离的衡量方法有多种,

  • 令 x x x表示簇中的一个样本点

  • μ \mu μ表示该簇中的质心

  • n表示每个样本点中的特征数目

  • i表示组成点 x x x的每个特征

则该样本点到质心的距离可以由以下距离来度量:

  • 欧几里得距离 : d ( x , μ ) = ∑ i = 1 n ( x i − x μ ) 2 d(x, \mu) = \sqrt{\sum_{i=1} ^n (x_i - x_\mu)^2} d(x,μ)=i=1∑n​(xi​−xμ​)2 ​

  • 曼哈顿距离: d ( x , μ ) = ∑ i = 1 n ( ∣ x i − μ ∣ ) d(x, \mu) = \sum_{i=1}^{n}(|x_i - \mu|) d(x,μ)=i=1∑n​(∣xi​−μ∣)

  • 余弦距离: c o s θ = ∑ 1 n ( x i ∗ μ ) ∑ 1 n ( x i ) 2 ∗ ∑ 1 n ( μ ) 2 cos\theta = \frac { \sum _1^n(x_i * \mu)} {\sqrt {\sum_1n(x_i)2} * \sqrt{\sum_1n(\mu)2}} cosθ=∑1n​(xi​)2 ​∗∑1n​(μ)2 ​∑1n​(xi​∗μ)​

如我们采用欧几里得距离,则一个簇中所有样本点到质心的距离的平方和为:

在这里插入图片描述

其中,m为一个簇中样本的个数,j是每个样本的编号。

这个公式被称为簇内平方和(cluster Sum of Square),又叫做Inertia。而将一个数据集中的所有簇的簇内平方和相加,就得到了整体平方和(Total Cluster Sum ofSquare),又叫做total inertia。Total Inertia越小,代表着每个簇内样本越相似,聚类的效果就越好。因此KMeans追求的是:求解能够让Inertia最小化的质心

实际上,在质心不断变化不断迭代的过程中,总体平方和是越来越小的。我们可以使用数学来证明,当整体平方和最小的时候,质心就不再发生变化了。如此,K-Means的求解过程,就变成了一个最优化问题。

这是我们第二次遇见最优化问题,即需要将某个指标最小化来求解模型中的一部分信息。

记得我们在逻辑回归中式怎么做的吗:我们在一个固定的方程 y ( x ) = 1 e θ T x y(x) = \frac 1 {e{\thetaTx}} y(x)=eθTx1​中最小化损失函数来求解模型的参数向量 θ \theta θ,并且基于参数向量 θ \theta θ的存在去使用模型。

在KMeans中,我们在一个固定的簇数K下,最小化总体平方和来求解最佳质心,并基于质心的存在去进行聚类。两个过程十分相似,并且,整体距离平方和的最小值其实可以使用梯度下降来求解。因此,有许多博客和教材都这样写道:“簇内平方和/整体平方和是KMeans的损失函数”。

解惑:Kmeans有损失函数吗?

损失函数本质是用来衡量模型的拟合效果的,只有有着求解参数需求的算法,才会有损失函数。

Kmeans不求解什么参数,它的模型本质也没有在拟合数据,而是在对数据进行一种探索。所以如果你去问大多数数据挖掘工程师,甚至是算法工程师,他们可能会告诉你说,K-Means不存在什么损失函数,Inertia更像是Kmeans的模型评估指标,而非损失函数。

但我们类比过了Kmeans中的Inertia和逻辑回归中的损失函数的功能,发现它们确实非常相似。所以,从“求解模型中的某种信息,用于后续模型的使用“这样的功能来看,我们可以认为Inertia是Kmeans中的损失函数,虽然这种说法并不严谨。

对比来看,在决策树中,我们有衡量分类效果的指标准确度accuracy,准确度所对应的损失叫做泛化误差,但我们不能通过最小化泛化误差来求解某个模型中需要的信息,我们只是希望模型的效果上表现出来的泛化误差很小。因此决策树,KNN等算法,是绝对没有损失函数的。

大家可以发现,我们的Inertia是基于欧几里得距离的计算公式得来的。实际上,我们也可以使用其他距离,每个距离都有自己对应的Inertia。在过去的经验中,我们总结出不同距离所对应的质心选择方法和Inertia,在Kmeans中,只要使用了正确的质心和距离组合,无论使用什么样的距离,都可以达到不错的聚类效果:

在这里插入图片描述

这些组合,都可以由严格的数学证明来推导。在sklearn当中,我们无法选择使用的距离,只能使用欧式距离。因此,我们也无需去担忧这些距离所搭配的质心选择是如何得来的了。

sklearn.cluster.KMeans

=========================================================================================

class sklearn.cluster.KMeans (

n_clusters=8,

init=’k-means++’,

n_init=10,

max_iter=300,

tol=0.0001,

precompute_distances=’auto’,

verbose=0,

random_state=None,

copy_x=True,

n_jobs=None,

algorithm=’auto’

)

重要参数 n_clusters


n_clusters 是 KMeans 中的 k,表示着我们告诉模型我们要分几类

  • 这是KMeans当中唯一一个必填的参数,默认为8类,但通常我们的聚类结果会小于8

  • 开始聚类之前,我们通常并不知道n_clusters究竟是多少,因此我们要对它进行探索

【实践】尝试聚类一次


当我们拿到一个数据集,如果可能的话,我们希望能够通过绘图先观察一下这个数据集的数据分布,以此来为我们聚类时输入的n_clusters做一个参考。

首先,我们来自己创建一个数据集。这样的数据集是我们自己创建,所以是有标签的。

from sklearn.datasets import make_blobs

import matplotlib.pyplot as plt

#自己创建数据集

X, y = make_blobs(n_samples=500,n_features=2,centers=4,random_state=1)

fig, ax1 = plt.subplots(1)

ax1.scatter(X[:, 0], X[:, 1]

,marker=‘o’ #点的形状

,s=8 #点的大小

)

plt.show()

在这里插入图片描述

基于这个分布,我们来使用Kmeans进行聚类。首先,我们要猜测一下,这个数据中有几簇?

  • 根据上面画出的图,我们先猜测有 3 簇

from sklearn.cluster import KMeans

n_clusters = 3

cluster = KMeans(n_clusters=n_clusters, random_state=0).fit(X)

y_pred = cluster.labels_ #标签类别

y_pred

pre = cluster.fit_predict(X)

pre == y_pred

cluster_smallsub = KMeans(n_clusters=n_clusters, random_state=0).fit(X[:200])

y_pred_ = cluster_smallsub.predict(X)

y_pred == y_pred_

centroid = cluster.cluster_centers_ # 质心

centroid

“”"

array([[-8.09286791, -3.50997357],

[-1.54234022, 4.43517599],

[-7.0877462 , -8.08923534]])

“”"

centroid.shape

“”"

(3, 2)

“”"

inertia = cluster.inertia_ #簇内平方和

inertia

“”"

1903.5342237665059

“”"

画出 n_clusters = 3 时的聚类图:

color = [“red”,“pink”,“orange”,“gray”]

fig, ax1 = plt.subplots(1)

for i in range(n_clusters):

ax1.scatter(X[y_predi, 0], X[y_predi, 1]

,marker=‘o’

,s=8

,c=color[i]

)

ax1.scatter(centroid[:,0],centroid[:,1]

,marker=“x”

,s=15

,c=“black”)

plt.show()

在这里插入图片描述

调整 n_clusters 的值,查看对应的簇内平方和

  • 发现当 n_clusters 越大,簇内平方和越小,这能说明聚类效果好吗?(并不能

n_clusters = 4

cluster_ = KMeans(n_clusters=n_clusters, random_state=0).fit(X)

inertia_ = cluster_.inertia_

inertia_

“”"

908.3855684760603

“”"

n_clusters = 5

cluster_ = KMeans(n_clusters=n_clusters, random_state=0).fit(X)

inertia_ = cluster_.inertia_

inertia_

“”"

811.0952123653016

“”"

n_clusters = 6

cluster_ = KMeans(n_clusters=n_clusters, random_state=0).fit(X)

inertia_ = cluster_.inertia_

inertia_

“”"

728.2827697678249z

“”"

查看点的实际分布

color = [“red”,“pink”,“orange”,“gray”]

fig, ax1 = plt.subplots(1)

for i in range(4):

ax1.scatter(X[yi, 0], X[yi, 1]

,marker=‘o’ #点的形状

,s=8 #点的大小

,c=color[i]

)

plt.show()

在这里插入图片描述

聚类算法的模型评估指标


不同于分类模型和回归,聚类算法的模型评估不是一件简单的事。

在分类中,有直接结果(标签)的输出,并且分类的结果有正误之分,所以我们使用预测的准确度,混淆矩阵,ROC曲线等等指标来进行评估,但无论如何评估,都是在”模型找到正确答案“的能力。

而回归中,由于要拟合数据,我们有SSE均方误差,有损失函数来衡量模型的拟合程度。

但这些衡量指标都不能够使用于聚类。

面试高频问题:如何衡量聚类算法的效果?

聚类模型的结果不是某种标签输出,并且聚类的结果是不确定的,其优劣由业务需求或者算法需求来决定,并且没有永远的正确答案。那我们如何衡量聚类的效果呢?

记得我们说过,KMeans的目标是确保“簇内差异小,簇外差异大”,我们就可以通过衡量簇内差异来衡量聚类的效果。而Inertia是用距离来衡量簇内差异的指标,因此,我们是否可以使用Inertia来作为聚类的衡量指标呢?Inertia越小模型越好嘛?

可以,但是这个指标的缺点和极限太大。

  • 首先,它不是有界的。我们只知道,Inertia是越小越好,是0最好,但我们不知道,一个较小的Inertia究竟有没有达到模型的极限,能否继续提高。

  • 第二,它的计算太容易受到特征数目的影响,数据维度很大的时候,Inertia的计算量会陷入维度诅咒之中,计算量会爆炸,不适合用来一次次评估模型。

  • 第三,它会受到超参数K的影响,在我们之前的尝试中其实我们已经发现,随着K越大,Inertia注定会越来越小,但这并不代表模型的效果越来越好了

  • 第四,Inertia对数据的分布有假设,它假设数据满足凸分布(即数据在二维平面图像上看起来是一个凸函数的样子),并且它假设数据是各向同性的(isotropic),即是说数据的属性在不同方向上代表着相同的含义。但是现实中的数据往往不是这样。所以使用Inertia作为评估指标,会让聚类算法在一些细长簇,环形簇,或者不规则形状的流形时表现不佳:

在这里插入图片描述

那我们可以使用什么指标呢?分两种情况来看。

  • 真实标签已知的时候

  • 真实标签未知的时候

当真实标签已知的时候

虽然我们在聚类中不输入真实标签,但这不代表我们拥有的数据中一定不具有真实标签,或者一定没有任何参考信息。当然,在现实中,拥有真实标签的情况非常少见(几乎是不可能的)。如果拥有真实标签,我们更倾向于使用分类算法。但不排除我们依然可能使用聚类算法的可能性。如果我们有样本真实聚类情况的数据,我们可以对于聚类算法的结果和真实结果来衡量聚类的效果。常用的有以下三种方法:

在这里插入图片描述

当真实标签未知的时候:轮廓系数

99%的情况下,我们是对没有真实标签的数据进行探索,也就是对不知道真正答案的数据进行聚类。这样的聚类,完全依赖于评价簇内的稠密程度(簇内差异小)和簇间的离散程度(簇外差异大)来评估聚类的效果。其中轮廓系数是最常用的聚类算法的评价指标。它是对每个样本来定义的,它能够同时衡量:

  1. 样本与其自身所在的簇中的其他样本的相似度a

等于样本与同一簇中所有其他点之间的平均距离

  1. 样本与其他簇中的样本的相似度b

等于样本与下一个最近的簇中的所有点之间的平均距离

根据聚类的要求”簇内差异小,簇外差异大“,我们希望b永远大于a,并且大得越多越好

单个样本的轮廓系数计算为:

s = b − a m a x ( a , b ) s = \frac {b-a} {max(a,b)} s=max(a,b)b−a​

这个公式可以被解析为:

s = { 1 − a b , i f a < b 0 , i f a = b b a − 1 , i f a > b s = \left\{\begin{matrix} 1- \frac a b , & if a < b \\ 0,& if a = b\\ \frac b a - 1, & if a > b \end{matrix}\right. s=⎩⎨⎧​1−ba​,0,ab​−1,​ifa<bifa=bifa>b​

很容易理解轮廓系数范围是(-1,1)

  • 值越接近1表示样本与自己所在的簇中的样本很相似,并且与其他簇中的样本不相似

  • 当样本点与簇外的样本更相似的时候,轮廓系数就为负。

  • 当轮廓系数为0时,则代表两个簇中的样本相似度一致,两个簇本应该是一个簇

可以总结为:轮廓系数越接近于1越好,负数则表示聚类效果非常差

如果一个簇中的大多数样本具有比较高的轮廓系数,则簇会有较高的总轮廓系数,则整个数据集的平均轮廓系数越高,则聚类是合适的。如果许多样本点具有低轮廓系数甚至负值,则聚类是不合适的,聚类的超参数K可能设定得太大或者太小。

Java面试核心知识点笔记

其中囊括了JVM、锁、并发、Java反射、Spring原理、微服务、Zookeeper、数据库、数据结构等大量知识点。

蚂蚁金服(Java研发岗),26岁小伙斩获三面,收获Offer定级P6

Java中高级面试高频考点整理

蚂蚁金服(Java研发岗),26岁小伙斩获三面,收获Offer定级P6

蚂蚁金服(Java研发岗),26岁小伙斩获三面,收获Offer定级P6

最后分享Java进阶学习及面试必备的视频教学

蚂蚁金服(Java研发岗),26岁小伙斩获三面,收获Offer定级P6

−ba​,0,ab​−1,​ifa<bifa=bifa>b​

很容易理解轮廓系数范围是(-1,1)

  • 值越接近1表示样本与自己所在的簇中的样本很相似,并且与其他簇中的样本不相似

  • 当样本点与簇外的样本更相似的时候,轮廓系数就为负。

  • 当轮廓系数为0时,则代表两个簇中的样本相似度一致,两个簇本应该是一个簇

可以总结为:轮廓系数越接近于1越好,负数则表示聚类效果非常差

如果一个簇中的大多数样本具有比较高的轮廓系数,则簇会有较高的总轮廓系数,则整个数据集的平均轮廓系数越高,则聚类是合适的。如果许多样本点具有低轮廓系数甚至负值,则聚类是不合适的,聚类的超参数K可能设定得太大或者太小。

Java面试核心知识点笔记

其中囊括了JVM、锁、并发、Java反射、Spring原理、微服务、Zookeeper、数据库、数据结构等大量知识点。

[外链图片转存中…(img-GMzmHqjl-1714488553367)]

Java中高级面试高频考点整理

[外链图片转存中…(img-vNvWZLfV-1714488553367)]

[外链图片转存中…(img-Wu2pY05C-1714488553368)]

最后分享Java进阶学习及面试必备的视频教学

[外链图片转存中…(img-6GmB55hk-1714488553368)]

本文已被CODING开源项目:【一线大厂Java面试题解析+核心总结学习笔记+最新讲解视频+实战项目源码】收录

  • 12
    点赞
  • 16
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值