《人工智能》机器学习 - 第2章 KNN算法（一理论讲解）

最新推荐文章于 2024-04-01 20:48:50 发布

Bruceoxl

最新推荐文章于 2024-04-01 20:48:50 发布

阅读量1.2k

点赞数

分类专栏：《人工智能》机器学习文章标签： KNN 机器学习人工智能

本文为博主原创文章，未经博主允许不得转载。

本文链接：https://blog.csdn.net/bruceoxl/article/details/82629005

版权

《人工智能》机器学习专栏收录该内容

22 篇文章 11 订阅

订阅专栏

2.1 KNN算法理论

2.1.1 KNN算法简介

$K$ 最近邻(k-Nearest Neighbor，KNN)分类算法是1967年由Cover T和Hart P提出的一种基本分类与回归方法，是一个理论上比较成熟的方法，也是最简单的机器学习算法之一。 该方法的思路是：如果一个样本在特征空间中的 $k$ 个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别，则该样本也属于这个类别。 KNN算法中，所选择的邻居都是已经正确分类的对象。该方法在定类决策上只依据最邻近的一个或者几个样本的类别来决定待分样本所属的类别。KNN方法虽然从原理上也依赖于极限定理，但在类别决策时，只与极少量的相邻样本有关。由于KNN方法主要靠周围有限的邻近的样本，而不是靠判别类域的方法来确定所属类别的，因此对于类域的交叉或重叠较多的待分样本集来说，KNN方法较其他方法更为适合。

KNN算法不仅可以用于分类，还可以用于回归。通过找出一个样本的k个最近邻居，将这些邻居的属性的平均值赋给该样本，就可以得到该样本的属性。更有用的方法是将不同距离的邻居对该样本产生的影响给予不同的权值(weight)，如权值与距离成正比（组合函数）。
　　
简单来说，KNN可以看成：有那么一堆你已经知道分类的数据，然后当一个新数据进入的时候，就开始跟训练数据里的每个点求距离，然后挑离这个训练数据最近的K个点看看这几个点属于什么类型，然后用少数服从多数的原则，给新数据归类。
举个简单的例子，我们可以使用k-近邻算法分类一个电影是爱情片还是动作片。

表1 每部电影的打斗镜头数、接吻镜头数以及电影类型

电影名称	打斗次数	接吻次数	电影类型
电影1	3	104	Romance
电影2	2	100	Romance
电影3	1	81	Romance
电影4	101	10	Action
电影5	99	5	Action
电影6	88	2	Action
电影7	18	90	未知

表1就是我们已有的数据集合，也就是训练样本集。这个数据集有两个特征，即打斗镜头数和接吻镜头数。除此之外，我们也知道每个电影的所属类型，即分类标签。用肉眼粗略地观察，接吻镜头多的，是爱情片。打斗镜头多的，是动作片。以我们多年的看片经验，这个分类还算合理。如果现在给我一部电影，你告诉我这个电影打斗镜头数和接吻镜头数。不告诉我这个电影类型，我可以根据你给我的信息进行判断，这个电影是属于爱情片还是动作片。而k-近邻算法也可以像我们人一样做到这一点，不同的地方在于，我们的经验更”牛逼”，而k-邻近算法是靠已有的数据。比如，你告诉我这个电影打斗镜头数为2，接吻镜头数为102，我的经验会告诉你这个是爱情片，k-近邻算法也会告诉你这个是爱情片。你又告诉我另一个电影打斗镜头数为49，接吻镜头数为51，我”邪恶”的经验可能会告诉你，这有可能是个”爱情动作片”，画面太美，我不敢想象。 (如果说，你不知道”爱情动作片”是什么？请评论留言与我联系，我需要你这样像我一样纯洁的朋友。) 但是k-近邻算法不会告诉你这些，因为在它的眼里，电影类型只有爱情片和动作片，它会提取样本集中特征最相似数据(最邻近)的分类标签，得到的结果可能是爱情片，也可能是动作片，但绝不会是”爱情动作片”。当然，这些取决于数据集的大小以及最近邻的判断标准等因素。

2.1.2 KNN算法核心-距离度量

我们已经知道k-近邻算法根据特征比较，然后提取样本集中特征最相似数据(最邻近)的分类标签。那么，如何进行比较呢？比如，我们还是以表1为例，怎么判断黄色圆点标记的电影所属的类别呢？如图1所示。

在这里插入图片描述

图1电影分类

【参考代码1.KNN-showdata】

我们可以从散点图大致推断，这个黄色圆点标记的电影属于爱情片，因为距离已知的那三个爱情片的圆点更近。k-近邻算法用什么方法进行判断呢？没错，就是距离度量。这个电影分类的例子有2个特征，也就是在2维实数向量空间，可以使用我们高中学过的两点距离公式计算距离，也就是欧式距离，这是最常用的距离，当然也可是其他距离。

设特征空间 $X$ 是 $n$ 维实数向量空间 $R^n$ ， $x_i ,x_j \in R^n$ ， $x_i = (x_i^1,x_i^2,...,x_i^n)^T$ ， $x_j = (x_j^1,x_j^2,...,x_j^n)^T$ ，$x_i ,x_j $ 的 $L_p$ 距离定义为

这里写图片描述
当 $p = 1$ 时，成为曼哈顿距离（Manhattan distance），即是

这里写图片描述
当 $p = 2$ 时，成为欧式距离（Euclidean distance），即是

这里写图片描述
【注】其他距离衡量：余弦值（cos）, 相关度（correlation）。

通过计算，我们可以得到如下结果：
(18,90)-> 爱情片(3,105)的距离约为20.51
(18,90)-> 爱情片(2,100)的距离约为18.86
(18,90)-> 爱情片(1,81)的距离约为19.23
(18,90)-> 动作片(101,10)的距离约为115.27
(18,90)-> 动作片(99,5)的距离约为117.41
(18,90)-> 动作片(88,12)的距离约为104.80
【参考代码2.KNN-dis】

通过计算可知，黄色圆点标记的电影到爱情片（18,90）的距离最近。如果算法直接根据这个结果，判断该红色圆点标记的电影为动作片，这个算法就是最近邻算法，而非k-近邻算法。那么k-邻近算法是什么呢？k-近邻算法步骤如下：

算法（k-近邻算法）