前言
以下仅为个人对作业的理解,仅供参考喔~
提示:以下是本篇文章正文内容,下面案例可供参考
一、了解K近邻模型的原理和流程,K近邻模型能解决机器学习任务中的哪些常见的任务?
K近邻模型的原理:给定一个训练集,对新的输入实例,在训练集中找到与该实例最邻近的K个实例,这K个实例的多数属于某个类,就把该输入实例分类到这个类中。
K近邻算法的流程:①将训练集D的输入部分进行预处理,并记录预处理的使用参数;②指定距离向量,也就是选择K值;③在训练集D内找到预处理的样本x的前k个近邻;④结合指定的分类规则,对x的类别y进行预测。
K近邻模型能解决机器学习任务中的分类和回归问题。
二、考虑影响K近邻模型的因素有哪些?
影响K近邻模型的因素:距离向量,超参数K值,决策规则
距离向量的选择:K近邻算法的核心在于如何选择K个近邻,即为距离向量的选择。常见的方式有:Lp距离,绝对值距离(即为L1距离),欧式距离(即为L2距离),拉格朗日距离等。
对超参数K值选择的意义:任意观测X的类别预测:(1)若使用较小的K值,则利用x较小邻域训练样本进行类别预测,只有更接近x的训练样本才对预测结果有作用,预测结果对近邻的训练样本类别更为敏感。若数据分布复杂或噪声影响严重,易导致高的预测错误率。最小K=1,为最近邻分类。(2)若使用较大的K值,则需要利用x较大邻域的训练样本进行类别预测,使得远离x的训练样本对预测结果也有作用,使预测结果发生错误。最大K=n,每个位置的预测结果为具有最大训练样本数目的类别。
K近邻分类模型的决策规则:多数表决,胜者为王;基于距离的加权投票
K近邻回归模型的决策规则:等权平均;基于距离的加权平均