机器学习-k近邻算法模型评估

在本次数据集的准备过程中，是将数据集存入到文本文件之中，以“直径，高度，对应类别的形式”放入文本文件之中，当然也可以使用excel表格等方式存放数据集。同时，在导入数据前需要先创建Python文件，并导入对应的库，可以直接在anaconda中下载对应的包，并在编译器上使用conda的环境，就可以使用已经下载好的包。

import numpy as py
import matplotlib.pyplot as plt
import operator

matplotlib包：在最后实验后，可以根据matplotlib中的pyplot模块来进行散点图地绘制，可以更加直观地展示待测数据与数据集地距离关系。

operator包：在实验的过程中，可以使用operator迭代地获取前k个元素的标签出现次数，便于获取出现频率最多的标签。

numpy包：在实验中需要多次使用基于numpy包中成熟的函数库以及数组对象Array。

图一：数据准备

导入数据：

在进行算法之前将文本文件中的数据以及标签，导入到Python文件中，用两个列表对象来接收。根据数据和标签在文本文件中的存放方式来设计读取方式：以','进行分割，并且需要去除到读取一行文件内容结尾的换行符号'\n'，将数据以直径、高度对应存入到data_set列表中，将标签存入到data_lables列表中，并将其返回。

# 数据集、标签
def data():
    string_file = 'D:\Py_project\knn_project\data.txt'
    data_set = []#数据集
    data_labels = []#标签
    with open(string_file,'r',encoding="UTF-8") as f:
        for line in f:
            list = line.split(",")
            data_set.append([int(list[0]),int(list[1])])
            data_labels.append(((str(list[2])).split('\n'))[0])
    # 返回数据集和标签
    return data_set,data_labels

数据处理：

对于导入进来的数据，对其进行归一化，首先通过获取数据集中每个属性的最大和最小值，指定（axis = 0），根据上述的归一化公式进行处理，重新的到符合条件的待测数据和数据集，并进行返回。在下述代码中，my_test即为待测数据，data_set即为数据集。

$X = \frac{X - X\min }{X\max - X\min }$

归一化公式

# 归一化
def normalize(my_test,data_set):
    # 得到每个特征的最大值和最小值
    min_vals = py.min(data_set, axis=0)
    max_vals = py.max(data_set, axis=0)
    # 对待测数据进行归一化
    test_data = (my_test - min_vals) / (max_vals - min_vals)
    # 对数据集进行归一化
    set_data = (data_set - min_vals) / (max_vals - min_vals)
    # 将归一化后的待测数据以及数据集进行返回
    return test_data,set_data

使用算法：

得到归一化后的数据，并传入对应的k值后，首先通过扩大待测数据的维度（便于相减得到后续的欧式距离），接着获取欧式距离根据公式，得到待测数据与数据集中每个数据的距离，并进行排序，得到与待测数据最近的k个数据。

$distance = \sqrt{\sum_{1}^{n}(x-x_{i})^{2}+(y-y_{i})^{2})}$

欧氏距离

接着，以键值对的形式，将这k个数据以标签和出现次数作为键值对存入字典中，并通过sorted方法对字典中的数据，即对水果的标签出现的次数（利用operator迭代获取每个标签出现的次数）进行降序排序。

最后展示待测数据与数据集的散点图，并将求得的待测数据的标签进行返回，并输出结果

# 实现knn
def knn(in_test,data_set,data_labels,k):
    # 扩大待分类数据维度
    data_size = data_set.shape[0]
    first_distance = (py.tile(in_test,(data_size,1)) - data_set) ** 2
    # 得到欧式距离
    second_distance = (first_distance.sum(axis = 1)) ** 0.5
    # 排序
    final_distance = second_distance.argsort()
    data_dict = dict()
    # 找到与待测数据最近的前k个数据
    for i in range(k):
        # 获取离测试数据最近的k个数据（根据下标获取其标签）
        data_label = data_labels[final_distance[i]]
        # 将获得到的标签以及出现的对应次数以键值对的方式放入字典中
        data_dict[data_label] = data_dict.get(data_label,0) + 1
        # 将字典进行排序（降序），返回出现最多次数的标签名称
        sort_dict = sorted(data_dict.items(),key=operator.itemgetter(1),reverse=True)
    
    plt.scatter(data_set[:, 0], data_set[:, 1], c='blue', label='data_set')  # 绘制数据集散点图
    plt.scatter(in_test[0], in_test[1], c='red', label='test_data')  # 绘制待测数据散点图
    # 横坐标是直径，纵坐标是高度
    plt.xlabel('calibre')
    plt.ylabel(' height')
    plt.legend()
    plt.show()
    
    return sort_dict[0][0]

分类结果：

当输入待测数据的直径和高度后，即展示散点图，和输出该水果所属的类别，如下图

# 主方法
def main():
    # 获取数据集以及标签
    data_set,data_labels = data()
    my_test = [int(input("请输入待分类水果的直径：\n")),int(input("请输入待分类水果的高：\n"))]
    # 进行归一化
    k = input("请指定实现knn算法的k值：\n")
    test_data,set_data = normalize(my_test,data_set)
    print('输入的数据所对应的水果类别是：{}'.format(knn(test_data,set_data,data_labels,k)))

测试一：

输入待测数据的直径为：65mm，高度为：45mm，指定此次knn算法取得k值为：3

图三：测试一运行结果

图四：实验结果1

测试二：

指定待测数据的直径为36mm，高度为128mm，k值为:5

图五：测试二运行

图六：实验结果2

3.1模型评估

3.11模型评估介绍

模型评估是指对机器学习或统计模型进行性能评估和验证的过程。通过模型评估，可以较好的发现模型的不足之处，评估模型验证的准确度，并为进一步改进模型提供指导。模型评估常见的方法有：交叉验证，留出集验证等方式，不同的验证方法有其自身的优缺点。

3.12模型评估流程

1.数据准备：将数据分为训练集和测试集

2.模型训练：使用训练集对模型进行训练

3.模型评估：使用测试集评估模型性能

4.性能指标：使用适当的指标（如准确率、精确率、召回率等）评估模型性能

5.调整模型：根据评估结果调整模型参数或其他算法

3.2评估knn水果分类模型：

3.21评估水果分类模型：

本次机器学习模型评估实验中，使用留出法来进行本次的实验，主要步骤如下：

1.首先基于上一节的knn算法，导入数据集

2.接着划分数据集，利用python中对列表的切片方式，将前n个数据设置为训练集，除此之外的数据作为测试集。

3.通过训练集训练模型，再通过测试集来验证，计算模型评估的准确率，得出结果。

3.22模型评估实现：

数据准备：

图七：模型评估数据准备

划分数据：

图八：划分数据集代码

训练模型：

在训练模型中，通过上一节的knn算法来实现，将划分好的测试集中的数据每次取一个待测数据，先与训练集一同进行归一化，在进行knn中进行数据预测。

    for i in range(total_count):
        test_data, train_data = normalize(test_set[i], train_set)
        predicted_label = knn(test_data, train_data, train_labels, k)

评估模型：

在训练模型中，可以预测待测数据的对应的标签，通过该方法，将测试集的原有标签，与预测标签进行对比，如果相同就使得计数器加一，最后计算正确预测的准确率。

# 评估模型
    k = int(input("请输入k的取值"))
    correct_count = 0
    total_count = len(test_set)
    for i in range(total_count):
        test_data, train_data = normalize(test_set[i], train_set)
        predicted_label = knn(test_data, train_data, train_labels, k)
        if predicted_label == test_labels[i]:
            correct_count += 1
            print("第"+str(i)+"次预测准确")

    accuracy = correct_count / total_count
    print("模型准确率：", accuracy)

运行结果：

图九：模型评估结果

3.3实验结果分析与总结：

实验结果分析：

在本次通过基于水果分类的背景下对k-近邻算法进行了简单的实现，在上述的实验结果展示中，可以得到该算法是一个简洁明了的算法，原理较为简单易懂，预测结果较好，在给定的两组数据都能较为准确地得到待测数据的标签，并且拟合结果是比较好的。可以应用于多分类的问题中。

在本次实验中对于不同的k值的选取，对实验的影响是较大的，选取的k值较小，这样就会产生可能的第一种情况，即在数据集中哪个数据点靠近待测点，那么待测点就属于哪个类别，这样容易出现过拟合的现象。第二种情况，即当k值取得很大的时候，与待测点较远的数据也会对待测点产生结果地影响，这样可能会出现欠拟合的现象，因此在k近邻算法中对k值地选取地策略是至关重要的。

图十：不同k值所得结果的差异

在本次模型评估实验中，通过留出法，将数据集分为测试集和训练集，将待测数据中的每个元素利用第二节的knn算法进行标签预测，并匹配待测数据的标签是否和给定的标签相一致，如果一致就用计数器变量记录下来，反之丢弃。

对于该方法评估模型，这种方法简单直观，但对数据的划分方式敏感，有可能产生较高的方差，本次实验模型准确率较高很大程度上与数据集较为单一和数据量较少有关，也和没有多选用不同的评估算法来测试模型有关。

实验结果总结：

本次实验中，不但通过knn算法使自身对机器学习这门课程得到了微薄的认识，也在knn算法的实现过程中，提高了对python语言的掌握程度,更重要的是，在实验中理解了第一个机器学习算法，并学会了加以利用处理简易的水果分类的问题，在实现knn时，通过一步一步从收集数据到得到实验结果，不仅提高了自身的逻辑思维能力，也对k-近邻算法从书本的理解到利用python语言地实现，然而在实验中也存在较多的不足。

在实验中，没有能够设计一个更好的数据存放方式，以文本文件的方式存放始终显得不够直观，由于对python语言的掌握程度不高，因此选择了较为简单的数据存储方式。其次，在本次实验中数据的数量明显不够多，数据的类别较少，这样容易对实验产生较大的影响。通过这次实验，让自身认识到许多的不足和需要学习的地方。

在本次模型评估的实验中，学习到对于算法而言，不仅需要能够得到结果，也需要反复测试，不断调整和优化，才能得到一个好算法，由于本实验所给的数据集较为简单且由于苹果和香蕉本身的高度特征就差距较大，因此在利用该方法得到的预测准确率较高，如果将其应用在其他背景的分类算法的时候，可能就会出现较大的误差，和出现准确率较差的情况。

在本次实验中，通过简单的模型评估算法，学习到浅薄的机器学习的评估知识，掌握了留出法的基本内容和其他不同评估算法的概要，以后在实现算法后，既要实现，更要调整和优化，才能得到更有实际意义的机器学习的算法。

布呤布呤布呤

关注

19
点赞
踩
18

收藏

觉得还不错? 一键收藏
0
评论
机器学习-k近邻算法模型评估

模型评估是指对机器学习或统计模型进行性能评估和验证的过程。通过模型评估，可以较好的发现模型的不足之处，评估模型验证的准确度，并为进一步改进模型提供指导。模型评估常见的方法有：交叉验证，留出集验证等方式，不同的验证方法有其自身的优缺点。在本次模型评估实验中，通过留出法，将数据集分为测试集和训练集，将待测数据中的每个元素利用第二节的knn算法进行标签预测，并匹配待测数据的标签是否和给定的标签相一致，如果一致就用计数器变量记录下来，反之丢弃。
复制链接

扫一扫