Kmeans聚类（手写数字识别）

WZLYJY

于 2022-09-18 16:45:26 发布

阅读量1.6k

点赞数 1

分类专栏：模式识别与机器学习文章标签：聚类 kmeans matlab

本文链接：https://blog.csdn.net/m0_58058919/article/details/126919577

版权

模式识别与机器学习专栏收录该内容

5 篇文章 2 订阅

订阅专栏

Kmeans算法原理：在给定K个初始聚类中心点的情况下，（1）把数据中的每个样本分到离其最近的聚类中心所代表的类中。（2）分类完后计算从新每个类的中心点（取平均值），然后进行迭代从新第（1）步和第（2）步。直到类中心点的变化很小，或者达到指定迭代次数。

具体实现步骤（matlab）可参考：(145条消息) Kmeans聚类算法详解_思绪无限的博客-CSDN博客_kmeans聚类算法

Python中在sklearn库有KMeans函数可调用。我实现的是直接调用，数据集在模板匹配算法中给出。

import numpy as np
import scipy.io as sio
from sklearn import metrics
from sklearn.cluster import KMeans


#读取训练和测试数据和标签，二维数组转换成一纬
train_data = sio.loadmat('./课程数据集/mat格式的MNIST数据/train_images.mat')
key_train  = list(train_data.keys())[-1]
train      = train_data[key_train]
train      = np.reshape(train,(784,60000)).transpose()


train_data2 = sio.loadmat('./课程数据集/mat格式的MNIST数据/train_labels.mat')
key_label   = list(train_data2.keys())[-1]
train_label = train_data2[key_label].transpose()


test_data  = sio.loadmat('./课程数据集/mat格式的MNIST数据/test_images.mat')
key_test   = list(test_data.keys())[-1]
test       = test_data[key_test]
test       = np.reshape(test,(784,10000)).transpose()


test_data2 = sio.loadmat('./课程数据集/mat格式的MNIST数据/test_labels.mat')
test_key   = list(test_data2.keys())[-1]
test_label = test_data2[test_key].transpose().flatten()


#调用Kmeans函数聚类
kmeans = KMeans(n_clusters=10)
kmeans.fit(train)


#统计预测结果
pred = kmeans.predict(test)
print("随机兰德调整指数：" +str(metrics.adjusted_rand_score(test_label,pred)))

correct =0
for i in range(10000):
    if pred[i] == test_label[i]:
        correct+=1
print("测试集的准确率为：" + str(correct/10000))