使用sklearn不同方法在digits手写数字数据集上聚类并用matplotlib呈现

最新推荐文章于 2024-07-25 11:43:36 发布

Soul fragments

最新推荐文章于 2024-07-25 11:43:36 发布

阅读量7.8k

点赞数 11

分类专栏： Python 文章标签： sklearn Python 聚类 digits

本文链接：https://blog.csdn.net/weixin_43943977/article/details/102686131

版权

本文介绍了如何使用sklearn库在digits手写数字数据集上应用K-means、AffinityPropagation、MeanShift、SpectralClustering和DBSCAN等聚类算法。通过评估和可视化结果，探讨了不同算法的性能和适用性，强调了k-means的经典地位。

摘要由CSDN通过智能技术生成

本文内容

测试sklearn中以下聚类算法在digits手写数字数据集上的聚类效果。

在这里插入图片描述

使用不同的评估方法对实验结果进行评估。

准备

- [ ] sklearn库

自2007年发布以来，scikit-learn已经成为Python重要的机器学习库了，scikit-learn简称sklearn，支持包括分类，回归，降维和聚类四大机器学习算法。还包括了特征提取，数据处理和模型评估者三大模块。

sklearn是Scipy的扩展，建立在Numpy和matplolib库的基础上。利用这几大模块的优势，可以大大的提高机器学习的效率。

sklearn拥有着完善的文档，上手容易，具有着丰富的API，在学术界颇受欢迎。sklearn已经封装了大量的机器学习算法，包括LIBSVM和LIBINEAR。同时sklearn内置了大量数据集，节省了获取和整理数据集的时间。

库的算法主要有四类：分类，回归，聚类，降维。其中：

常用的回归：线性、决策树、SVM、KNN ；集成回归：随机森林、Adaboost、GradientBoosting、Bagging、ExtraTrees

常用的分类：线性、决策树、SVM、KNN，朴素贝叶斯；集成分类：随机森林、Adaboost、GradientBoosting、Bagging、ExtraTrees

常用聚类：k均值（K-means）、层次聚类（Hierarchical clustering）、DBSCAN

常用降维：LinearDiscriminantAnalysis、PCA

它具有以下特点

简单高效的数据挖掘和数据分析工具
每个人都可以访问，并且可以在各种情况下重用
基于NumPy，SciPy和matplotlib构建
开源，可商业使用-BSD许可证

在这里插入图片描述

sklearn datasets

sklearn中包含了大量的优质的数据集，在我们学习机器学习的过程中，我们可以使用这些数据集实现出不同的模型。

首先，要使用sklearn中的数据集，必须导入datasets模块。

from sklearn import datasets

在这里插入图片描述

digits手写数字数据集
实验要求采用digits数据集，我们先对这个数据集进行一个初步的了解：
手写数字数据集包含1797个0-9的手写数字数据，每个数据由8 * 8 大小的矩阵构成，矩阵中值的范围是0-16，代表颜色的深度。
我们先加载一下数据，了解一下数据的维度，并以图像的形式展示一些第一个数据：

import matplotlib.pyplot as plt
from sklearn.datasets import load_digits
digits = load_digits()
print(digits.data.shape)
print(digits.target.shape)
print(digits.images.shape)
plt.matshow(digits.images[0])
plt.show()

可以看到数据维度和第一张手写数字
(1797, 64)
(1797,)
(1797, 8, 8)

在这里插入图片描述

实验过程

K-means聚类digits数据集
在sklearn官网中提供的K-means对digits的聚类的demo代码中运行出来的结果如下：（链接：https://scikit-learn.org/stable/auto_examples/cluster/plot_kmeans_digits.html#sphx-glr-auto-examples-cluster-plot-kmeans-digits-py）

在这里插入图片描述

整个可视化的生成很漂亮，细细研究下整个实现过程来发现官方给出的示例也很棒，下面对代码进行分析并进行改动，给出我们通常意义上的直接的聚类效果：

从库sklearn.datasets中加载digits数据集，数据集的介绍见上面。数据集是分好label的，存在digits.target中，同时我们可以提取出数据集的样本数，每个样本的维度，分别存在n_samples n_features中，输出这三个变量，可以得到：
n_digits: 10
n_samples 1797
n_features 64

下面是一段核心评估代码，使用不同的评分方法来计算score表示聚类后类别的准确性，下面再分别用三种k-means聚类的方式来调用这段评分代码，得到不同的score，这也是输出文字的全部内容（ps：这段代码写的真的很漂亮）

def bench_k_means(estimator, name, data):
    t0 = time()
    estimator.fit(data)
    print('%-9s\t%.2fs\t%i\t%.3f\t%.3f\t%.3f\t%.3f\t%.3f\t%.3f'
          % (name, (time() - t0), estimator.inertia_,
             metrics.homogeneity_score(labels, estimator.labels_),
             metrics.completeness_score(labels, estimator.labels_),
             metrics.v_measure_score(labels, estimator.labels_),
             metrics.adjusted_rand_score(labels, estimator.labels_),
             metrics.adjusted_mutual_info_score(labels,  estimator.labels_,average_method='arithmetic'),
             metrics.silhouette_score(data, estimator.labels_, metric='euclidean',sample_size=sample_size)))
bench_k_means(KMeans(init='k-means++', n_clusters=n_digits, n_init=