K近邻算法：以"同类相吸"解决分类问题！

最新推荐文章于 2022-02-25 22:24:05 发布

Datawhale

最新推荐文章于 2022-02-25 22:24:05 发布

阅读量910

点赞数 1

文章标签：算法机器学习深度学习人工智能数据分析

本文链接：https://blog.csdn.net/Datawhale/article/details/108373319

版权

本文深入浅出地介绍了K近邻(KNN)算法的理论基础和工作原理，包括背景介绍、距离计算方法、K值选择的影响。通过实际案例，如鸢尾花和马绞痛数据集，展示了KNN在分类问题中的应用，以及如何处理数据中的缺失值。通过代码实践，读者可以了解到如何使用KNN进行预测并优化模型，例如通过调整K值来平衡过拟合和欠拟合。

摘要由CSDN通过智能技术生成

↑↑↑关注后"星标"Datawhale

每日干货 & 每月组队学习，不错过

Datawhale干货

作者：游璐颖，福州大学，Datawhale成员

前言

KNN（k-nearest neighbors）又叫做K近邻，是机器学习中相对简单好理解的算法，并且它是个几乎不需要训练就可以得到预测结果的模型。

我们常说物以类聚，人以群分，大家之所以能够成为朋友，多少是因为身上的某些特质是相近的，K近邻算法借助的就是这个思想。它使用某种方法找到样本空间中距离测试点最近的K个点，以投票表决的方式决定该测试点的标签。

本文将结合阿里云提供的机器学习算法(三): K近邻(k-nearest neighbors)初探与清华大学李航老师的PPT，来具体解释这其中的理论基础和代码实例。

1. KNN理论基础

1.1 背景介绍

大家通过视频软件挑选电影的时候，通常会先按照电影的类别进行挑选，例如动作片、爱情片、歌舞片。这些电影有各自的特点，像是动作片的打斗场景一定比爱情片多，它也不会像歌舞片一样一言不合就开始跳舞，但又不能完全排除有出现的可能。

总结这三类型的影片所具有的显著特点：打斗、亲吻、跳舞。假设现在用一个元组(a, b, c)来表示，值在0～1之间，Movie = (0.8, 0.1, 0.1)时，就认为这个电影是动作片。那么很自然的，提出了使用一个三维空间作为该数据集的样本空间，每一部电影在空间中都有属于自己的点。

假定现在把一堆电影在这个空间中表示出来，大概率会发现它们具有一定的聚集性，动作片中点与点的距离会比动作片和爱情片中点与点的距离更短。如果不能理解，也可以拿二维的做类比。

根据这个特点，提出了K近邻算法。对于给定的一个测试电影，将它在空间中标注出来，使用曼哈顿距离或者欧式距离等，选出K个距离该测试点最近的点，而我们已经事先知道了这些被选出来的最近点的电影类型，接着对其进行类型统计投票，选择票数最多的那个作为该测试电影的类型。

比如当K=5时，用a、b、c分别表示三类型电影的票数，如果a = 4, b = 1, c = 0，我们就认为这部电影是动作片。

从这个过程你可以看出，它只需要一个多维空间、带标签的训练集，因此它也是个有监督学习。

1.2 工作原理与特点

K近邻算法的工作原理如下：

首先，存在一个样本数据集合，也称作训练样本集，并且样本集中每个数据都存在标签，即我们知道样本集中每个数据与所属分类的对应关系。

其次，输入没有标签的新数据后，将新数据的每个特征与样本集中数据对应的特征进行比较，然后算法提取样本集中特征最相似数据（最近邻）的分类标签。一般来说，只选择样本数据集中前N个最相似的数据。K一般不大于20。

最后，选择k个中出现次数最多的分类，作为新数据的分类。

借个《机器学习实战》中的例子，下图是每部电影的打斗镜头数、接吻镜头数以及电影评估类型，其中有一部未知电影的接吻镜头有90次，打斗18次，电影类型是未知的。

那么接下来通过计算未知电影与样本集合中其他电影的距离：

现在我们得到了样本集中所有电影与未知电影的距离，按照距离递增排序，可以找到k个距离最近的电影。假定k=3，则三个最靠近的电影依次是He's Not Really into Dudes、Beautiful Woman和California Man。k-近邻算法按照距离最近的三部电影的类型，决定未知电影的类型，而这三部电影全是爱情片，因此我们判定未知电影是爱情片。

K近邻算法的特点也显而易见，由于选择了K个邻近的参考点，因此它的精度较高，且对异常值不敏感，无数据输入假定，使用于数值型和标称型的数据。缺点是计算复杂度和空间复杂度双高。