python机器学习——Kmeans聚类

最新推荐文章于 2024-06-21 18:08:46 发布

曹文杰1519030112

最新推荐文章于 2024-06-21 18:08:46 发布

阅读量662

点赞数

分类专栏： python机器学习及实践文章标签：聚类机器学习 python

本文链接：https://blog.csdn.net/qq_39594033/article/details/108022229

版权

python机器学习及实践专栏收录该内容

45 篇文章 20 订阅

订阅专栏

Kmeans聚类

聚类基本思想
Kmeans 介绍
python 实现
参考

聚类基本思想

背景： 由于获取带有标签的数据成本比较高（因为需要人工标记），而没有标签的数据却很容易获得。如果我们可以根据样本自身的属性或者说特征，给这写样本进行分类那么即节省了成本也达到了我们分类的目的。
思想： 我们举一个例子来阐述聚类的基本思想，例如我们让一个班级的人走到操场上去玩耍，我们会发现一个班级的几十个人会自动的聚成几人一组，体现出一种无以类聚，人以群分的特点。

Kmeans 介绍

K-Means 算法主要解决的问题如下图所示。我们可以看到，在图的左边有一些点，我们用肉眼可以看出来有四个点群，但是我们怎么通过计算机程序找出这几个点群来呢？于是就出现了我们的 K-Means 算法。

在这里插入图片描述
这个算法其实很简单，步骤如下：
① 从随机抽取的 k 个数据点作为初始的聚类中心(我们需要假设总共有K类数据)；

② 计算每个数据点到每个中心的距离，并把每个数据点分配到距离它最近的种子中心；

③ 一旦所有的数据点都被分配完成，每个聚类中心按照本类的现有数据点重新计算（一般将各个类中的数据求平均值，作为新的聚类中心）；

④ 上面过程不断重复，直到收敛（所有的簇不再改变）。

下面的图片来自维基百科，动态的展现了Kmeans算法的迭代过程（图中K为3，也就是我们希望将样本聚为3类）

在这里插入图片描述

python 实现

我们使用的数据是手写体数字图像分类，也就是有0~9这10个数字的8*8的像素矩阵，我们希望通过这64个像素数据对图像进行聚类，需要注意的是，我们这里没有用到标签（target）数据。

# 分别导入 numpy、matplotlib 以及 pandas，用于数学运算、作图以及数据分析。
import numpy as np
import matplotlib.pyplot as plt
import pandas as pd
# 使用 pandas 分别读取训练数据与测试数据集。
digits_train = pd.read_csv('https://archive.ics.uci.edu/ml/machine-learning-databases/optdigits/optdigits.tra', header=None)
digits_test = pd.read_csv('https://archive.ics.uci.edu/ml/machine-learning-databases/optdigits/optdigits.tes', header=None)
# 从训练与测试数据集上都分离出 64 维度的像素特征与 1 维度的数字目标。
X_train = digits_train[np.arange(64)]
y_train = digits_train[64]
X_test = digits_test[np.arange(64)]
y_test = digits_test[64]
# 从 sklearn.cluster 中导入 KMeans 模型。
from sklearn.cluster import KMeans
# 初始化 KMeans 模型，并设置聚类中心数量为 10。
kmeans = KMeans(n_clusters=10)
kmeans.fit(X_train)
# 逐条判断每个测试图像所属的聚类中心。
y_pred = kmeans.predict(X_test)