【机器学习】K-Means聚类算法

IT农民工1

于 2020-08-13 08:20:00 发布

阅读量354

点赞数

文章标签：聚类数据挖掘无监督学习人工智能机器学习

原文链接：https://item.jd.com/12686131.html

版权

作者：田志晨

来源：小田学Python

K-Means是一种聚类算法，与之前提到的朴素贝叶斯等算法不同，它属于无监督学习。无监督学习是什么意思呢？简单来说，之前的算法中我们是利用特征 x 和类别 y 来进行训练、分类的，而无监督学习是指不需要我们提供具体的类别 y ，而让数据自己聚在一起，形成 k 个簇，以实现分类的目的。

具体方法是通过对给定的样本进行划分，分为 k 个簇，使得簇内的点尽量紧密的连在一起，而簇间的距离尽量大，评判的标准就是通过欧氏距离。

主要包括两个步骤（首先初始化 k 个质心）：

分别计算样本点与各个质心的距离，来判断样本归属于哪个簇；
寻找得到的簇的新质心，并更新。

重复循环上述两步，直到平均距离最小，即找到了最佳的质心以及簇的分类。

接下来看看如何通过程序来实现。首先需要用到sklearn中的方法来生成一些用来测试的数据——make_blobs。

sklearn.datasets.make_blobs(n_samples=100, n_features=2,centers=3, cluster_std=1.0, center_box=(-10.0, 10.0), shuffle=True, random_state=None)[source]

n_samples是待生成的样本的总数
n_features是每个样本的特征数
centers表示类别数
cluster_std表示每个类别的方差

在 jupyter notebook 中通过 shift + tab 组合键可以看到其中的参数，默认为100个样本，两个特征，三个中心点等等。

import matplotlib.pyplot as plt
import sklearn.datasets as datasets
X,y = datasets.make_blobs()
plt.scatter(X[:,0], X[:,1], c=y)

因为在生成数据的时候就是默认三个中心，所以分三类是最优的，然而在拿到未知的数据时并不清楚分几簇才是最好的，下面先实现一下分类，再说明如何选择 k 值最好。

from sklearn.cluster import KMeans

kmeans = KMeans(3)
kmeans.fit(X)
y_ = kmeans.predict(X)
print(y_)

[out] [2 1 2 0 0 0 2 0 1 1 1 1 2 1 1 2 0 1 2 1 0 2 0 2 1 1 2 0 2 0 1 1 0 1 2 0 0
 1 2 2 0 1 2 1 2 0 2 0 2 2 0 1 2 0 0 1 1 1 2 0 2 1 1 2 1 0 0 0 0 2 0 2 0 2
 0 1 0 2 0 0 2 1 0 0 2 2 1 2 1 2 1 2 1 0 1 2 2 1 1 0]

同之前算法类似，先创建对象，然后将样本进行训练，不同之处在于 K-Means是无监督学习，不需要传入目标值。上面暂时先设置分三类，得到结果分别用数字打标签。下面通过图像看一下分类是否成功：

可以看到，通过简单的调库，就将样本进行分类了。那么解决了分类问题，下面说一下如何选择簇的个数。

举个栗子，取 k 为4时，如上图所示的分类结果显然他将之前的分类中一个簇又进行的拆分，明显有些多余了。然而，当我们拿到数据时，尤其是特征较多的时候，我们根本无法一眼看出来怎么分是合适的。在之前的算法中，可以根据准确率来判断，对于无监督学习，显然没有那些条件。不过它也有自己的评价指标——轮廓系数(sklearn.metrics.silhouette_score)。