机器学习“傻瓜式”理解(4)KNN算法(数据处理以及超参数)

数据处理以及超参数的理解

首先我们需要了解到,我们在进行机器学习的过程中寻求的不是让训练处的在现有的数据集上达到最佳,而是我们需要让其在真实环境中达到最佳的效果。在上一节中我们将全部的数据集全部用于训练模型中,对于我们所训练出的模型无法知道其具体的准确度便投入真实环境使用,这样的做法极具风险性,而且我们也不推荐。
解决方案:机器学习最常用的解决方案便是实现测试集和训练集的相互分离(此方法仍具有局限性,后续会补充)。具体的操作方式是:将全部数据集的80%当做训练数据集,训练出来模型后我们通过另外20%的数据(称其为测试数据集)来验证所训练出来模型的准确度。
实现代码封装:

import numpy as np

def train_test_split(X,y,test_train = 0.2,seed = None):
    '''check'''
    assert X.shape[0] == y.shape[0],\
            "the size must be valid"
    assert 0.0 <= test_train <= 1.0,\
            "the ratio must be in 0-1"

    if seed:
        np.random.seed(seed)

    shuffle_index= np.random.permutation(len(X))

    test_ratio = test_train
    test_size = int(len(X) * test_ratio)

    test_indexes = X[:test_size]
    train_indxes = X[test_size:]

    X_train = X[train_indxes]
    X_test = X[test_indexes]

    y_train = y[train_indxes]
    y_test = y[test_indexes]

    return X_train,X_test,y_train,y_test

KNN中的超参数:

首先明确一个概念,何为超参数?我们需要在机器学习中传入的参数便是指的是超参数。KNN中的超参数便是K,这是KNN中我们需要关注的第一个超参数。
思考一个问题,加上K=3,距离最近的三个点之间的每个类别占1/3,我们如何确定是属于哪一个类别?如同下图所示:
在这里插入图片描述
如上我们便引出了第二个超参数weights.
另外,我们在计算预测点和我们数据点之间的距离时使用的是欧拉距离,但是观察下图后你会发现:
在这里插入图片描述
我们便得到了超参数p。

如何才能寻找到最好的超参数?

有两个解决方案:
①我们可以采用经验数值,例如KNN算法中我们使用经验数值K=5,
②网格搜索策略寻找最优参数。
问题:何为最好的超参数?
我们需要一个评判标准,分类算法的评判标准便是模型准确度(accuracy)。
其实现代码如下:(在库中metrics中)

import numpy as</
  • 3
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值