机器学习“傻瓜式”理解（4）KNN算法（数据处理以及超参数）

最新推荐文章于 2024-06-18 06:30:00 发布

崔振凯

最新推荐文章于 2024-06-18 06:30:00 发布

阅读量2.9k

点赞数 3

分类专栏：机器学习文章标签：机器学习 python

本文链接：https://blog.csdn.net/qq_41979922/article/details/104634394

版权

本文介绍了机器学习中的KNN算法，强调了数据处理和超参数选择的重要性。通过80/20拆分数据集来评估模型，并详细探讨了KNN的超参数K、weights和p。提出经验值和网格搜索作为寻找最优超参数的方法，并展示了使用sklearn进行实际操作的过程。最后，简述了数据归一化的作用和实现。

摘要由CSDN通过智能技术生成

数据处理以及超参数的理解

首先我们需要了解到，我们在进行机器学习的过程中寻求的不是让训练处的在现有的数据集上达到最佳，而是我们需要让其在真实环境中达到最佳的效果。在上一节中我们将全部的数据集全部用于训练模型中，对于我们所训练出的模型无法知道其具体的准确度便投入真实环境使用，这样的做法极具风险性，而且我们也不推荐。
解决方案：机器学习最常用的解决方案便是实现测试集和训练集的相互分离（此方法仍具有局限性，后续会补充）。具体的操作方式是：将全部数据集的80%当做训练数据集，训练出来模型后我们通过另外20%的数据（称其为测试数据集）来验证所训练出来模型的准确度。
实现代码封装：

import numpy as np

def train_test_split(X,y,test_train = 0.2,seed = None):
    '''check'''
    assert X.shape[0] == y.shape[0],\
            "the size must be valid"
    assert 0.0 <= test_train <= 1.0,\
            "the ratio must be in 0-1"

    if seed:
        np.random.seed(seed)

    shuffle_index= np.random.permutation(len(X))

    test_ratio = test_train
    test_size = int(len(X) * test_ratio)

    test_indexes = X[:test_size]
    train_indxes = X[test_size:]

    X_train = X[train_indxes]
    X_test = X[test_indexes]

    y_train = y[train_indxes]
    y_test = y[test_indexes]

    return X_train,X_test,y_train,y_test

KNN中的超参数：

首先明确一个概念，何为超参数？我们需要在机器学习中传入的参数便是指的是超参数。KNN中的超参数便是K，这是KNN中我们需要关注的第一个超参数。
思考一个问题，加上K=3，距离最近的三个点之间的每个类别占1/3，我们如何确定是属于哪一个类别？如同下图所示：
在这里插入图片描述
如上我们便引出了第二个超参数weights.
另外，我们在计算预测点和我们数据点之间的距离时使用的是欧拉距离，但是观察下图后你会发现：

我们便得到了超参数p。