python机器学习小记——基于K近邻(k-nearest neighbors)模型的分类&回归

最新推荐文章于 2024-08-23 00:15:00 发布

陈灿 Cedric

最新推荐文章于 2024-08-23 00:15:00 发布

阅读量785

点赞数 1

分类专栏：阿里天池云-龙珠计划机器学习小记文章标签：算法 python 机器学习最近邻分类算法数据挖掘

本文链接：https://blog.csdn.net/Cedric_Chen_/article/details/112167068

版权

这篇博客介绍了K近邻(kNN)算法的基本原理、应用，以及在分类和回归任务中的实践。内容涵盖kNN算法的介绍、距离计算方法、参数详解，并通过Demo数据集、鸢尾花数据集、模拟数据集和马绞痛数据的案例详细展示了kNN的分类和回归过程，同时讨论了k值选择对模型性能的影响。此外，还涉及了kNN在处理缺失值时的KNNImputer方法及其工作原理。

摘要由CSDN通过智能技术生成

【阿里天池云-龙珠计划】python机器学习小记

在这里插入图片描述

<task02：K近邻(k-nearest neighbors)分类&回归模型>

一、算法原理及应用介绍

二、基于Demo数据集的kNN分类

三、基于莺尾花数据集的kNN分类

四、模拟数据集–kNN回归

五、马绞痛数据–kNN数据预处理+kNN分类pipeline

【写在前面】
不知不觉已经第三篇了，希望可以坚持下去总结一年多的积累
曾无数次遇到bug在CSDN找到了解答，这个系列的总结也算是回馈给有需要的广大读者
感谢群主提供的学习机会@AI蜗牛车，群KOL@老表
推荐一下群主的公众号：AI蜗牛车，文中对于文本分类相关内容很多整理自公众号的白话机器学习部分👍
再推荐下此系列的前两篇博文——逻辑回归/朴素贝叶斯分类

1-python机器学习小记——基于逻辑回归模型的多分类场景预测实战

2-python机器学习小记——基于朴素贝叶斯(Native Bayes,NB)模型的分类预测

那么我们开始吧~~

1. K近邻(k-nearest neighbors)算法原理及应用介绍

1.1. K近邻(k-nearest neighbors)的介绍

kNN(k-nearest neighbors)，中文翻译K近邻。我们常常听到一个故事：如果要了解一个人的经济水平，只需要知道他最好的5个朋友的经济能力，
对他的这五个人的经济水平求平均就是这个人的经济水平。这句话里面就包含着kNN的算法思想。

示例：如上图，绿色圆要被决定赋予哪个类，是红色三角形还是蓝色四方形？如果K=3，由于红色三角形所占比例为2/3，绿色圆将被赋予红色三角形那个类，如果K=5，由于蓝色四方形比例为3/5，因此绿色圆被赋予蓝色四方形类。

1) KNN建立过程

给定测试样本，计算它与训练集中的每一个样本的距离。
找出距离近期的K个训练样本。作为测试样本的近邻。
依据这K个近邻归属的类别来确定样本的类别。

2) 类别的判定

①投票决定，少数服从多数。取类别最多的为测试样本类别。

②加权投票法，依据计算得出距离的远近，对近邻的投票进行加权，距离越近则权重越大，设定权重为距离平方的倒数。

1.2 算法原理介绍

k近邻方法是一种惰性学习算法，可以用于回归和分类，它的主要思想是投票机制，对于一个测试实例x, 我们在有标签的训练数据集上找到和最相近的k个数据，用他们的label进行投票，分类问题则进行表决投票，回归问题使用加权平均或者直接平均的方法。knn算法中我们最需要关注两个问题：k值的选择和距离的计算。
kNN中的k是一个超参数，需要我们进行指定，一般情况下这个k和数据有很大关系，都是交叉验证进行选择，但是建议使用交叉验证的时候，k∈[2,20]，使用交叉验证得到一个很好的k值。

k值还可以表示我们的模型复杂度，当k值越小意味着模型复杂度变大，更容易过拟合，(用极少数的样例来绝对这个预测的结果，很容易产生偏见，这就是过拟合)。我们有这样一句话，k值越多学习的估计误差越小，但是学习的近似误差就会增大。

1.2.1 距离/相似度的计算：

样本之间的距离的计算，我们一般使用对于一般使用Lp距离进行计算。其中p表示空间的维数。当p=1时候，称为曼哈顿距离(Manhattan distance)，当p=2时候，称为欧氏距离(Euclidean distance)，当p=∞时候，称为极大距离(infty distance), 表示各个坐标的距离最大值,另外也包含夹角余弦等方法。

一般采用欧式距离较多，但是文本分类则倾向于使用余弦来计算相似度。

对于两个向量 $x_i,x_j)$ ,一般使用 $L_p$ 距离进行计算。假设特征空间 $X$ 是n维实数向量空间 $R^n$ , 其中, $x_i,x_j \in X$ ,
$x_{i}=\left(x_{i}^{(1)}, x_{i}^{(2)}, \ldots, x_{i}^{(n)}\right)$ , $x_{j}=\left(x_{j}^{(1)}, x_{j}^{(2)}, \ldots, x_{j}^{(n)}\right)$
$x_i，x_j$ 的 $L_p$ 距离定义为:
$L_{p}\left(x_{i}, x_{j}\right)=\left(\sum_{l=1}^{n}\left|x_{i}^{(l)}-x_{j}^{(l)}\right|^{p}\right)^{\frac{1}{p}}$