【PyTorch】KNN实战之MNIST数据分类与归一化处理

最新推荐文章于 2024-08-08 22:03:12 发布

少年白马

最新推荐文章于 2024-08-08 22:03:12 发布

阅读量4.6k

点赞数 1

分类专栏： PyTorch 文章标签：分类 pytorch 机器学习

本文链接：https://blog.csdn.net/qq_44833724/article/details/123526142

版权

本文通过Python和PyTorch实现了KNN算法，详细介绍了如何使用KNN对MNIST数据集进行分类，并讨论了数据归一化的重要性。在KNN算法下，对MNIST数据集进行了分类，强调了归一化在提升模型性能中的作用。

摘要由CSDN通过智能技术生成

KNN的算法实现

首先创建演示数据集

import numpy as np
import matplotlib.pyplot as plt


# 给出训练数据以及对应的类别

def createDataSet():
    group = np.array([[1.0, 2.0], [1.2, 0.1], [0.1, 1.4], [0.3, 3.5], [1.1, 1.0], [0.5, 1.5]])
    labels = np.array(['A', 'A', 'B', 'B', 'A', 'B'])
    return group, labels


if __name__ == '__main__':
    group, labels = createDataSet()
    plt.scatter(group[labels == 'A', 0], group[labels == 'A', 1], color='r', marker='*')
    #  对应类别为A的数据集我们使用红色六角形表示
    plt.scatter(group[labels == 'B', 0], group[labels == 'B', 1], color='g', marker='+')
    #  对应类别为B的数据集我们使用绿色十字形表示
    plt.show()

代码介绍：

createDataSet用于创建训练数据集及其对应的类别，group对应的是二维训练数据集分别对应x轴和y轴的数据
labels对应的是训练集的标签
使用Matplotlib绘制图形，scatter绘制散点图

$[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-R4C2x6KM-1647412956332)(C:\Users\Administrator\AppData\Roaming\Typora\typora-user-images\image-20220216183410997.png)]$

Python基于欧氏距离实现KNN分类器

def KNN_classify(k, dis, X_train, x_train, Y_test):
    assert dis == 'E' or dis == 'M', 'dis must E or M,E代表欧氏距离，M代表哈曼顿距离'
    num_test = Y_test.shape[0]
    labellist = []

    if (dis == 'E'):
        for i in range(num_test):
            distances = np.sqrt(np.sum(((X_train - np.tile(Y_test[i], (X_train.shape[0], 1))) ** 2), axis=1))
            nearest_k = np.argsort(distances)
            topK = nearest_k[:k]
            classCount = {
   }
            for i in topK:
                classCount[x_train[i]] = classCount.get(x_train[i], 0) + 1
                sortedClassCount = sorted(classCount.items(), key=operator.itemgetter(1), reverse=True)
                labellist.append(sortedClassCount[0][0])
                return np.array(labellist)

测试KNN算法

需要注意的是，我们在输入测试集的时候需要将其转换为Numpy的矩阵，否则系统会提示传入的参数是list类型，没有shape的方法

if __name__ == '__main__':
    group, labels = createDataSet()
    y_test_pred = KNN_classify(1, 'E', group, labels, np.array([[1.0, 2.1], [0.4, 2.0]]))
    print(y_test_pred)
# 测试数据选择一个测试，前面测试为A，后面的测试为B

完整代码

import operator

import numpy as np
import matplotlib.pyplot as plt


# 给出训练数据以及对应的类别

def createDataSet():
    group = np.array([[1.0, 2.0], [1.2, 0.1], [0.1, 1.4], [0.3, 3.5], [1.1, 1.0], [0.5, 1.5]])
    labels = np.array(['A', 'A', 'B', 'B', 'A', 'B'])
    return group, labels


if __name__ == '__main__':
    group, labels = createDataSet()
    plt.scatter(group[labels == 'A', 0], group[labels == 'A', 1], color='r', marker='*')
    #  对应类别为A的数据集我们使用红色六角形表示
    plt.scatter(group[labels == 'B', 0], group[labels == 'B', 1], color='g', marker=