MNIST数据集是一个经典分类数据集,包含了70000张手写数字的图片(像素图,手写的0-9的十个数字),以及每张图的标签(数字是什么)。
模型的任务就是对其进行学习,然后给一张像素图,他就能分类这个图片是哪个数字。
据说KNeighborsClassifier模型比较适合,那就开干!
第一步,查阅得知KNeighborsClassifier的参数有至少两项可以更改:
weights 和 n_neighbors 以及其他的参数
具体见:KNN算法说明以及sklearn 中 neighbors.KNeighborsClassifier参数说明_一年又半的博客-CSDN博客_kneighborsclassifier 参数
那么就对这两个进行GridSearch。
from sklearn.model_selection import GridSearchCV
param_grid = [{'weights': ["uniform", "distance"], 'n_neighbors': [3, 4, 5]}]
knn_clf = KNeighborsClassifier()
grid_search = GridSearchCV(knn_clf, param_grid, cv=5, verbose=3)
grid_search.fit(X_train, y_train)
查看最佳参数:
grid_search.best_params_
查看最佳参数能达到的性能水平:
grid_search.best_score_
计算准确率 accuracy: 准确率的定义:准确率(Precision)和正确率(Accuracy)的区别_还卿一钵无情泪的博客-CSDN博客_正确率
from sklearn.metrics import accuracy_score
y_pred = grid_search.predict(X_test)
accuracy_score(y_test, y_pred)
图片: