Kmeans算法原理:在给定K个初始聚类中心点的情况下,(1)把数据中的每个样本分到离其最近的聚类中心所代表的类中。(2)分类完后计算从新每个类的中心点(取平均值),然后进行迭代从新第(1)步和第(2)步。直到类中心点的变化很小,或者达到指定迭代次数。
具体实现步骤(matlab)可参考:(145条消息) Kmeans聚类算法详解_思绪无限的博客-CSDN博客_kmeans聚类算法
Python中在sklearn库有KMeans函数可调用。我实现的是直接调用,数据集在模板匹配算法中给出。
import numpy as np
import scipy.io as sio
from sklearn import metrics
from sklearn.cluster import KMeans
#读取训练和测试数据和标签,二维数组转换成一纬
train_data = sio.loadmat('./课程数据集/mat格式的MNIST数据/train_images.mat')
key_train = list(train_data.keys())[-1]
train = train_data[key_train]
train = np.reshape(train,(784,60000)).transpose()
train_data2 = sio.loadmat('./课程数据集/mat格式的MNIST数据/train_labels.mat')
key_label = list(train_data2.keys())[-1]
train_label = train_data2[key_label].transpose()
test_data = sio.loadmat('./课程数据集/mat格式的MNIST数据/test_images.mat')
key_test = list(test_data.keys())[-1]
test = test_data[key_test]
test = np.reshape(test,(784,10000)).transpose()
test_data2 = sio.loadmat('./课程数据集/mat格式的MNIST数据/test_labels.mat')
test_key = list(test_data2.keys())[-1]
test_label = test_data2[test_key].transpose().flatten()
#调用Kmeans函数聚类
kmeans = KMeans(n_clusters=10)
kmeans.fit(train)
#统计预测结果
pred = kmeans.predict(test)
print("随机兰德调整指数:" +str(metrics.adjusted_rand_score(test_label,pred)))
correct =0
for i in range(10000):
if pred[i] == test_label[i]:
correct+=1
print("测试集的准确率为:" + str(correct/10000))