php k均值,机器学习教程之-K均值聚类(K-means)的sklearn实现

0.概述

[1]

优点:

原理简单

速度快

能够处理大量的数据

缺点:

需要指定聚类 数量K

对异常值敏感

对初始值敏感

1.K均值聚类(K-means)

[2]

20170804183811140.jpg

从上图中,我们可以看到,A,B,C,D,E是五个在图中点。而灰色的点是我们的种子点,也就是我们用来找点群的点。有两个种子点,所以K=2。

然后,K-Means的算法如下:

1)随机在图中取K(这里K=2)个种子点。

2)然后对图中的所有点求到这K个种子点的距离,假如点Pi离种子点Si最近,那么Pi属于Si点群。(上图中,我们可以看到A,B属于上面的种子点,C,D,E属于下面中部的种子点)

3)接下来,我们要移动种子点到属于他的“点群”的中心。(见图上的第三步)

4)然后重复第2)和第3)步,直到,种子点没有移动(我们可以看到图中的第四步上面的种子点聚合了A,B,C,下面的种子点聚合了D,E)。

2.自问自答

根据K均值聚类算法,问自己几个问题:

1)处理不知道分多少类的数据,如何取K的值?

2)重心初始化什么位置更好?

3)这个算法收不收敛,即通过有限次的运算,就能找到“点群”的中心?

答:2,3问题一起回答。最基本的方法是从样本点中随机选取k个点。给定足够的时间,K-means将总是收敛,但这可能是局部最小值。这很大程度上取决于重心的初始化。因此,通常会进行几次计算,重心的初始化不同。帮助解决这个问题的一种方法是k-means ++初始化方案,它已经在scikit-learn中使用(使用init=’kmeans++’参数)。这将初始化质心(通常)彼此远离,导致比随机初始化更好的结果。

4)如何计算重心?

答:除了随机初始化重心之外,后面跟新重心都是依据训练点的。具体计算重心的公式如下图。

20170804212721555.jpg

3.

4.

5.代码"""

"""

功能:K均值聚类

说明:人为设置函数模型为2类

作者:唐天泽

博客:http://blog.csdn.net/u010837794/article/details/76596063

日期:2017-08-04

"""

"""

导入项目所需的包

"""

import pandas as pd

import numpy as np

import matplotlib.pyplot as plt

from sklearn import datasets

from sklearn.cluster import KMeans

# 使用交叉验证的方法,把数据集分为训练集合测试集

from sklearn.model_selection import train_test_split

# 加载数据集

def load_data():

iris = datasets.diabetes()

"""展示数据集的形状

diabetes.data.shape, diabetes.target.shape

"""

# 将数据集拆分为训练集和测试集

X_train, X_test, y_train, y_test = train_test_split(

iris.data, iris.target, test_size=0.10, random_state=0)

return X_train, X_test, y_train, y_test

# 使用KMeans考察线性分类KMeans的预测能力

def test_KMeans(X_train,X_test,y_train,y_test):

# 选择模型,把数据交给模型训练

y_pred = KMeans(n_clusters=2, random_state=0).fit_predict(X_train)

"""绘图"""

fig = plt.figure()

ax = fig.add_subplot(1, 1, 1)

ax.scatter(X_train[:, 2], X_train[:, 3], c=y_pred)

ax.set_xlabel("data")

ax.set_ylabel("target")

ax.set_title("K-means")

ax.legend(framealpha=0.5)

plt.show()

return

if __name__=="__main__":

X_train,X_test,y_train,y_test=load_data() # 生成用于分类的数据集

test_KMeans(X_train,X_test,y_train,y_test) # 调用 test_KMeans

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值