大数据与人工智能方向先修课第三次雪梨任务

本文探讨了K近邻模型的基本原理,包括如何通过训练集找到新实例的K个最近邻来预测其类别。还讨论了模型的重要因素,如距离向量(Lp距离、L1、L2距离等)、超参数K值的选择及其对预测结果的影响,以及决策规则在分类和回归任务中的应用。K近邻模型适用于解决机器学习中的分类和回归问题。
摘要由CSDN通过智能技术生成


前言

以下仅为个人对作业的理解,仅供参考喔~


提示:以下是本篇文章正文内容,下面案例可供参考

一、了解K近邻模型的原理和流程,K近邻模型能解决机器学习任务中的哪些常见的任务?

K近邻模型的原理:给定一个训练集,对新的输入实例,在训练集中找到与该实例最邻近的K个实例,这K个实例的多数属于某个类,就把该输入实例分类到这个类中。

K近邻算法的流程:①将训练集D的输入部分进行预处理,并记录预处理的使用参数;②指定距离向量,也就是选择K值;③在训练集D内找到预处理的样本x的前k个近邻;④结合指定的分类规则,对x的类别y进行预测。

K近邻模型能解决机器学习任务中的分类和回归问题。

二、考虑影响K近邻模型的因素有哪些?

影响K近邻模型的因素:距离向量,超参数K值,决策规则

距离向量的选择:K近邻算法的核心在于如何选择K个近邻,即为距离向量的选择。常见的方式有:Lp距离,绝对值距离(即为L1距离),欧式距离(即为L2距离),拉格朗日距离等。

对超参数K值选择的意义:任意观测X的类别预测:(1)若使用较小的K值,则利用x较小邻域训练样本进行类别预测,只有更接近x的训练样本才对预测结果有作用,预测结果对近邻的训练样本类别更为敏感。若数据分布复杂或噪声影响严重,易导致高的预测错误率。最小K=1,为最近邻分类。(2)若使用较大的K值,则需要利用x较大邻域的训练样本进行类别预测,使得远离x的训练样本对预测结果也有作用,使预测结果发生错误。最大K=n,每个位置的预测结果为具有最大训练样本数目的类别。

K近邻分类模型的决策规则:多数表决,胜者为王;基于距离的加权投票

K近邻回归模型的决策规则:等权平均;基于距离的加权平均


总结

以上仅为简单答案,更具体的讲解请见本人的其他几篇博客:K近邻分类模型、K近邻回归模型

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值