opencv 进阶04-搞懂什么是 K邻近算法

最新推荐文章于 2024-10-01 14:28:10 发布

小海聊智造

最新推荐文章于 2024-10-01 14:28:10 发布

阅读量133

点赞数 1

分类专栏： opencv 进阶人工智能计算机视觉文章标签： opencv 算法人工智能计算机视觉 python

本文链接：https://blog.csdn.net/hai411741962/article/details/132298394

版权

人工智能同时被 3 个专栏收录

136 篇文章 39 订阅

订阅专栏

计算机视觉

63 篇文章 21 订阅

订阅专栏

opencv 进阶

19 篇文章 9 订阅

订阅专栏

机器学习算法是从数据中产生模型，也就是进行学习的算法（下文也简称为算法）。我们把经验提供给算法，它就能够根据经验数据产生模型。在面对新的情况时，模型就会为我们提供判断（预测）结果。例如，我们根据“个子高、腿长、体重轻”判断一个孩子是个运动员的好苗子。把这些数据量化后交给计算机，它就会据此产生模型，在面对新情况时（判断另一个孩子能不能成为运动员），模型就会给出相应的判断。

数据特征

比如，要对一组孩子进行测试，首先就要获取这组孩子的基本数据。这组数据包含 身高、腿长、体重等数据，这些反映对象（也可以是事件）在某个方面的表现或者性质的事项，被称为属性或特征。而具体的值，如反映身高的“188 cm”就是特征值或属性值。这组数据的集合“（身高=188 cm，腿长=56 cm，体重=46 kg），……，（身高=189 cm，腿长=55 cm，体重=48 kg）”，称为数据集，其中每个孩子的数据称为一个样本。

从数据中学得模型的过程称为学习（learning）或者训练（training）。在训练过程中所使用的数据称为训练数据，其中的每个样本称为训练样本，训练样本所组成的集合称为训练集。

当然，如果希望获取一个模型，除了有数据，还需要给样本贴上对应的标签（label）。例如，“（（个子高、腿长、体重轻），好苗子）”。这里的“好苗子”就是标签，通常我们将拥有了标签的样本称为“样例”。

学得模型后，为了测试模型的效果，还要对其进行测试，被测试的样本称为测试样本。输入测试样本时，并不提供测试样本的标签（目标类别），而是由模型决定样本的标签（属于哪个类别）。比较测试样本预测的标签与实际样本标签之间的差别，就可以计算出模型的精确度。

大多数的机器学习算法都来源于日常生活实践。K 近邻算法是最简单的机器学习算法之一，主要用于将对象划分到已知类中，在生活中被广泛使用。例如，教练要选拔一批长跑运动员，如何选拔呢？他使用的可能就是 K 近邻算法，会选择个子高、腿长、体重轻，膝、踝关节围度
小，跟腱明显，足弓较大者作为候选人。他会觉得这样的孩子有运动员的潜质，或者说这些孩子的特征和运动员的特征很接近。

K 近邻算法的基本思想

K 近邻算法的本质是将指定对象根据已知特征值分类。例如，看到一对父子，一般情况下，通过判断他们的年龄，能够马上分辨出哪位是父亲，哪位是儿子。这是通过年龄属性的特征值来划分的。

上述例子是最简单的根据单个特征维度做的分类，在实际场景中，情况可能更复杂，有多个特征维度。例如，为一段运动视频分类，判断这段视频是乒乓球比赛还是足球比赛。

为了确定分类，需要定义特征。这里定义两个特征，一个是运动员“挥手”的动作，另一个是运动员“踢脚”的动作。当然，我们不能一看到“挥手”动作就将视频归类为“乒乓球比赛”，因为我们知道某些足球运动员习惯在运动场上通过挥手来跟队友进行交流。同样，我们也不能一看到“踢脚”动作就将视频归类为“足球比赛”，因为有些乒乓球运动员会通过“踢脚”动作来表达自己的感情。

我们分别统计在某段特定时间内，视频中“挥手”和“踢脚”动作的次数，发现如下规律：

在乒乓球比赛的视频中，“挥手”的次数远多于“踢脚”的次数。
在足球比赛的视频中，“踢脚”的次数远多于“挥手”的次数。

根据对一组视频的分析，得到如表 20-1 所示的数据。

在这里插入图片描述

为了方便观察，将上述数据绘制为散点图，如图 20-1 所示。

在这里插入图片描述

从图 20-1 中可以看到，数据点呈现聚集特征：

乒乓球比赛视频中的数据点聚集在 x 轴坐标为[3000, 5000]，y 轴坐标为[1,500]的区域。
足球比赛视频中的数据点聚集在 y 轴坐标为[3000, 5000]，x 轴坐标为[1,500]的区域。

此时，有一个视频 Test，经过统计得知其中出现 2000 次“挥手”动作，100 次“踢脚”动作。如果在图 20-1 中标注其位置，可以发现视频 Test 的位置最近的邻居是乒乓球比赛视频，因此可判断该视频是乒乓球比赛视频。

上面的例子是一个比较极端的例子，非黑即白，而实际的分类数据中往往参数非常多，判断起来也不会如此简单。因此，为了提高算法的可靠性，在实施时会取
k 个近邻点，这 k 个点中属于哪一类的较多，然后将当前待识别点划分为哪一类。为了方便判断，k
值通常取奇数，这和为了能得到明确的投票结果通常将董事会成员安排为奇数的道理是一样的。

例如，已知某知名双胞胎艺人 A 和 B 长得很像，如果要判断一张图像 T 上的人物到底是艺人 A 还是艺人 B，则采用 K 近邻算法实现的具体步骤如下：

（1）收集艺人 A 和艺人 B 的照片各 100 张。
（2）确定几个用来识别人物的重要特征，并使用这些特征来标注艺人 A 和 B 的照片。

例如，根据某 4 个特征，每张照片可以表示为[156, 34, 890, 457]这样的形式（即一个样本点）。按照上述方式，获得艺人 A 的
100 张照片的数据集 FA，艺人 B 的 100 张照片的数据集 FB。此时数据集 FA、FB
中的元素都是上述特征值的形式，每个集合中各有 100 个这样的特征值。简而言之，就是使用数值来表示照片，得到艺人 A
的数值特征集（数据集）FA、艺人 B 的数值特征集 FB。

（3）计算待识别图像 T 的特征，并使用特征值表示图像 T。例如，图像 T 的特征值 TF 可
能为[257, 896, 236, 639]。
（4）计算图像 T 的特征值 TF 与 FA、FB 中各特征值之间的距离。

（5）找出产生其中 k 个最短距离的样本点（找出离 T 最近的 k 个邻居），统计 k 个样本点中属于 FA 和 FB 的样本点个数，属于哪个数据集的样本点多，就将 T 确定为哪个艺人的图像。

例如，找到 11 个最近的点，在这 11 个点中，属于 FA 的样本点有 7 个，属于 FB 的样本点有 4个，那么就确定这张图像 T 上的艺人为 A；反之，如果这 11 个点中，有 6 个样本点属于 FB，有 5 个样本点属于 FA，那么就确定这张图像 T 上的艺人为 B。
以上所述就是 K 近邻算法的基本思想。