机器学习教程之10-聚类(Clustering)-K均值聚类(K-means)的sklearn实现

0.概述

优点
原理简单
速度快
能够处理大量的数据

缺点
需要指定聚类 数量K
对异常值敏感
对初始值敏感

1.无监督学习

无监督学习中,数据不带任何标签。

能找出数据内在分类规则,并分成独立的点集(蔟),算法称为聚类算法

2.K均值聚类(K-means)

K-均值是最普及的聚类算法,算法接受一个未标记的数据集,然后将数据聚类成不同的组。

在下图中,可以看到,A,B,C,D,E是五个样本点,而灰色的点是随机点,也就是我们用来找点群的点。有两个种子点,所以K=2。
然后,K-Means的算法如下:
1)随机在图中取K(这里K=2)个种子点。
2)然后对图中的所有点求到这K个种子点的距离,假如点Pi离种子点Si最近,那么Pi属于Si点群。(上图中,我们可以看到A,B属于上面的种子点,C,D,E属于下面中部的种子点)
3)接下来,我们要移动种子点到属于他的“点群”的中心。(见图上的第三步)
4)然后重复第2)和第3)步,直到,种子点没有移动(我们可以看到图中的第四步上面的种子点聚合了A,B,C,下面的种子点聚合了D,E)。

这里写图片描述

3.随机初始化

在运行 K-均值算法的之前,我们首先要随机初始化所有的聚类中心点,下面介绍怎样做:

(1)我们应该选择 K

4.自问自答

根据K均值聚类算法,问自己几个问题:

1)处理不知道分多少类的数据,如何取K的值?

:通常是需要根据不同的问题,人工进行选择的。选
择的时候思考我们运用 K-均值算法聚类的动机是什么,然后选择能最好服务于该目的标聚类数。

2)重心初始化什么位置更好?

:随机选择K个实例的位置作为重心初始位置。

3)这个算法收不收敛,即通过有限次的运算,就能找到“点群”的中心?

:2,3问题一起回答。最基本的方法是从样本点中随机选取k个点。给定足够的时间,K-means将总是收敛,但这可能是局部最小值。这很大程度上取决于重心的初始化。因此,通常会进行几次计算,重心的初始化不同。帮助解决这个问题的一种方法是k-means ++初始化方案,它已经在scikit-learn中使用(使用init=’kmeans++’参数)。这将初始化质心(通常)彼此远离,导致比随机初始化更好的结果。

4)如何计算重心?

:除了随机初始化重心之外,后面跟新重心都是依据训练点的。具体计算重心的公式如下图。
这里写图片描述

5.代码

"""
功能:K均值聚类
说明:人为设置函数模型为2类
作者:唐天泽
博客:http://blog.csdn.net/u010837794/article/details/76596063
日期:2017-08-04
"""

"""
导入项目所需的包
"""
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

from sklearn import datasets

from sklearn.cluster import KMeans

# 使用交叉验证的方法,把数据集分为训练集合测试集
from sklearn.model_selection import train_test_split

# 加载数据集
def load_data():
    iris = datasets.diabetes()
    """展示数据集的形状
       diabetes.data.shape, diabetes.target.shape
    """

    # 将数据集拆分为训练集和测试集 
    X_train, X_test, y_train, y_test = train_test_split(
    iris.data, iris.target, test_size=0.10, random_state=0)
    return X_train, X_test, y_train, y_test
# 使用KMeans考察线性分类KMeans的预测能力
def test_KMeans(X_train,X_test,y_train,y_test):

    # 选择模型,把数据交给模型训练
    y_pred = KMeans(n_clusters=2, random_state=0).fit_predict(X_train)

    """绘图"""
    fig = plt.figure()
    ax = fig.add_subplot(1, 1, 1)
    ax.scatter(X_train[:, 2], X_train[:, 3], c=y_pred)
    ax.set_xlabel("data")
    ax.set_ylabel("target")
    ax.set_title("K-means")
    ax.legend(framealpha=0.5)
    plt.show()
    return
if __name__=="__main__":
    X_train,X_test,y_train,y_test=load_data() # 生成用于分类的数据集
    test_KMeans(X_train,X_test,y_train,y_test) # 调用 test_KMeans

6.参考资料

[1] k-means+python︱scikit-learn中的KMeans聚类实现
[2] 深入浅出K-Means算法
[1] 李航 《统计学习方法》
[2] 华校专《Python大战机器学习》

本程序是在python中完成,基于sklearn.cluster中的k-means聚类包来实现数据的聚类,对于里面使用的数据格式如下:(注意更改程序中的相关参数) 138 0 124 1 127 2 129 3 119 4 127 5 124 6 120 7 123 8 147 9 188 10 212 11 229 12 240 13 240 14 241 15 240 16 242 17 174 18 130 19 132 20 119 21 48 22 37 23 49 0 42 1 34 2 26 3 20 4 21 5 23 6 13 7 19 8 18 9 36 10 25 11 20 12 19 13 19 14 5 15 29 16 22 17 13 18 46 19 15 20 8 21 33 22 41 23 69 0 56 1 49 2 40 3 52 4 62 5 54 6 32 7 38 8 44 9 55 10 70 11 74 12 105 13 107 14 56 15 55 16 65 17 100 18 195 19 136 20 87 21 64 22 77 23 61 0 53 1 47 2 33 3 34 4 28 5 41 6 40 7 38 8 33 9 26 10 31 11 31 12 13 13 17 14 17 15 25 16 17 17 17 18 14 19 16 20 17 21 29 22 44 23 37 0 32 1 34 2 26 3 23 4 25 5 25 6 27 7 30 8 25 9 17 10 12 11 12 12 12 13 7 14 6 15 6 16 12 17 12 18 39 19 34 20 32 21 34 22 35 23 33 0 57 1 81 2 77 3 68 4 61 5 60 6 56 7 67 8 102 9 89 10 62 11 57 12 57 13 64 14 62 15 69 16 81 17 77 18 64 19 62 20 79 21 75 22 57 23 73 0 88 1 75 2 70 3 77 4 73 5 72 6 76 7 76 8 74 9 98 10 90 11 90 12 85 13 79 14 79 15 88 16 88 17 81 18 84 19 89 20 79 21 68 22 55 23 63 0 62 1 58 2 58 3 56 4 60 5 56 6 56 7 58 8 56 9 65 10 61 11 60 12 60 13 61 14 65 15 55 16 56 17 61 18 64 19 69 20 83 21 87 22 84 23 41 0 35 1 38 2 45 3 44 4 49 5 55 6 47 7 47 8 29 9 14 10 12 11 4 12 10 13 9 14 7 15 7 16 11 17 12 18 14 19 22 20 29 21 23 22 33 23 34 0 38 1 38 2 37 3 37 4 34 5 24 6 47 7 70 8 41 9 6 10 23 11 4 12 15 13 3 14 28 15 17 16 31 17 39 18 42 19 54 20 47 21 68 22
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值