Machine Learning（一）KNN算法

最新推荐文章于 2024-09-30 13:43:16 发布

我有一只可爱的草莓熊

最新推荐文章于 2024-09-30 13:43:16 发布

阅读量535

点赞数

分类专栏：机器学习文章标签：算法 kNN

本文链接：https://blog.csdn.net/qq_41596730/article/details/127770363

版权

机器学习专栏收录该内容

3 篇文章 0 订阅

订阅专栏

文章目录

前言
一、 $k$ 近邻算法
二、三个基本要素
三、 $k d$ 树
- 1.构造平衡 $k d$ 树
- 2.用 $k d$ 树进行最近邻搜索
四、参考链接

前言

$k$ 近邻法是一种基本的分类方法。 $k$ 近邻法的输入为实例的特征向量，对应于特征空间的点；输出为实例的类别。 $k$ 近邻法实际上利用训练数据集对特征向量空间进行划分，并作为其分类的“模型”，所以说不具有显示的学习过程。 $k$ 值得选择、距离度量及分类决策规则是 $k$ 近邻法得三个基本要素。

一、 $k$ 近邻算法

输入：训练数据集
$=\{(x_1,y_1),(x_2,y_2),\cdots,(x_N,y_N)\}$
其中， $x_i\in \chi \sube \bm{R}^n$ 为实例的特征向量， $y_i\in Y= \{c_1,c_2,\cdots, c_K\}$ 为实例的类别， $i=1,2,\cdots,N$ 。
输出：实例 $x$ 所属的类 $y$ 。

根据给定的距离度量，在训练集 $T$ 中找出与 $x$ 最邻近的 $k$ 个点，涵盖这 $k$ 个点的 $x$ 的邻域记作 $N_k(x)$ ;
在 $N_k(x)$ 中根据分类决策规则（如多数表决）决定 $x$ 的类别 $y$ :
$y=\text{arg}\max_{c_j}\sum_{x_i\in N_k(x)}I(y_i=c_j),i=1,2,\cdots,N,j=1,2,\cdots,K$
其中， $I$ 为指示函数，即当 $y_i=c_j$ 时 $I$ 为1，否则 $I$ 为0。

$k$ 近邻法的特殊情况是 $k = 1$ 的情形，称为最邻近算法。

二、三个基本要素

1.距离度量

$k$ 近邻模型的特征空间一般是 $n$ 维实数向量空间 $\bm{R}^n$ 。使用的是欧氏距离，但也可是其他距离。如更一般的 $L_p$ 距离。定义空间中两点 $x_1=(x_1^1,x_1^2,\cdots,x_1^n)^T,x_2=(x_2^1,x_2^2,\cdots,x_2^n)^T$ 的 $L_p$ 距离定义为
$L_p(x_1,x_2)=\left(\sum_{l=1}^{n}|x_1^l-x_2^l|^p\right)^\frac{1}{p}$
当 $p = 2$ 时，称为欧氏距离，当 $p = 1$ 时，称为曼哈顿距离。

2. $k$ 值的选择

$k$ 值得选择会对 $k$ 近邻法的结果产生重大影响。
如果选择较小的 $k$ 值，就相当于用较小的邻域中的训练实例进行预测，预测结果会对近邻的实例点非常敏感。如果临近的实例点恰巧是噪声，预测就会出错。换句话说, $k$ 值得减小就意味着整体模型变得复杂，容易发生过拟合。
如果选择较大的 $k$ 值，就相当于用较大邻域中的训练实例进行预测，这时与输入实例较远的（不相似的）训练实例也会对预测起作用，使预测发生错误。 $k$ 值的增大就意味着整体模型变得简单。
在应用中， $k$ 值一般取一个比较小的数值。通常采用交叉验证法来选取最优的 $k$ 值。

3.分类决策规则

这里的分类决策规则就是多数表决，即由输入实例的 $k$ 个邻近的训练实力中的多数类决定输入实力的类。

三、 $k d$ 树

通过上面的学习，我们就已经明白了 $k$ 近邻算法的具体步骤，这时你可以采用python等语言的编程实现 $k$ 近邻算法。
但是如果训练集中的实例的维数很大以及训练数据容量很大时，我们如果一一计算训练集中的实例点与预测点之间的欧氏距离，并且找出 $k$ 个近邻时计算非常耗时，这种方法是不可行的。为了提高 $k$ 近邻搜索的效率，可以考虑使用特殊的结构存储训练数据，以减少计算距离的次数。具体方法很多，这里介绍其中一种 $k d$ 树的方法。

1.构造平衡 $k d$ 树

构造平衡 $k d$ 树。

开始：构造根节点，根节点包含 $T$ 的 $k$ 维空间的超矩形区域。选择 $x^1$ 为坐标轴，以 $T$ 中所有实例的 $x^1$ 坐标的中位数为切分点，将根节点对应的超矩形区域切分为两个子区域。
由根结点生成深度为1的左、右子节点：左子结点对应坐标 $x^1$ 小于切分点的子区域，右子节点对应坐标 $x^1$ 大于切分点的子区域。
将落在切分超平面的实例点保存在根结点。
重复：对深度为 $j$ 的结点，选择 $x^l$ 为切分轴， $l=j(\text{mod}k)+1$ ，以该结点的区域中所有实例的 $x^l$ 坐标的中位数为切分点，将该结点对应的超矩形区域切分为两个子区域。
由该结点生成深度为 $j + 1$ 的左、右子结点：左子节点对应坐标 $x^l$ 小于切分点的子区域，右子结点对应坐标 $x^l$ 大于切分点的子区域。
将落在切分超平面上的实例点保存在该结点。
指导两个子区域内没有实例存在是停止，从而形成 $k d$ 树的区域划分。

我们直接使用一个例子来展示如何构造 $k d$ 树。
给定一个二维空间的训练数据集
$T=\{(2,3)^T,(5,4)^T,(9,6)^T,(4,7)^T,(8,1)^T,(7,2)^T\}$
构造一个平衡 $k d$ 树。

第一步，以 $x^1$ 为切分的坐标轴， $x^1$ 维度上的中位数为7，所以我们以7为切分点对数据进行切分。如下图所示：

此时将 $(7, 2)$ 点保存在根结点（深度为0），左区域有三个点，右区域有两个点。
第二步，此时结点的深度为1， $l = 1 (m o d 2) + 1 = 2$ ，选择 $x^2$ 为切分的坐标轴。左区域中 $x^2$ 维度上的中位数为4，右区域中 $x^2$ 维度上的中位数为6，据此对左右区域进行切分。如下图所示：

此时的 $k d$ 树如下所示：
第三步，此时的结点的深度为2， $l = 2 (m o d 2) + 1 = 1$ ，选择 $x^1$ 为切分的坐标轴。切分后如下图所示：

kd树如下图所示：

至此我们发现所有的区域中已经没有实例存在（也就是说没有实例点可以进行划分），所以停止 $k d$ 树的区域划分。

2.用 $k d$ 树进行最近邻搜索

上一节我们已经介绍了如何构造 $k d$ 树，本节我们介绍如何使用 $k d$ 树进行最近邻搜索。
算法如下：
输入：已构造的 $k d$ 树，目标点 $x$ 。
输出： $x$ 的最近邻。

从根结点出发，递归地向下访问 $k d$ 树。若目标点 $x$ 当前维的坐标小于切分点的坐标，则移动到左子节点，否则移动到右子结点，直到子结点为叶结点为止。
令此叶节点为“当前最近点”（计算点 $x$ 与此叶结点的距离）。
递归地向上回退，在每个结点（记为 $o$ ）进行以下操作：
- (a)如果该结点 $o$ 保存的实例点与点 $x$ 的距离比当前最近点距离点 $x$ 更近，则以该实例点 $o$ 作为“当前最近点”。
- (b)当前最近点一定存在于该结点 $o$ 一个子结点对应的区域。检查该子结点的父结点 $o$ 的另一子结点对应的区域是否有更近的点。具体地，检查另一子节点对应的区域是否与以目标点 $x$ 为球心，以目标点与“当前最近点”间的距离为半径的超球体相交。如果相交，可能在另一个子节点对应的区域内存在距目标点更近的点，移动到另一个子节点。接着，递归地进行最近邻搜索，如果不相交，向上回退。
当回退到根结点时，搜索结束。最后的“当前最近点”即为 $x$ 的最近邻点。

我们用一个实例来演示 $k d$ 树进行最近邻搜索的过程。目标点是 $x (2, 4.5)$ ，要找到 $x$ 的最近邻。
按照算法流程，第一步结束后，我们移动到 $(4, 7)$ 点。移动路径是： $(7, 2) - (5, 4) - (4, 7)$ 。
第二步：令叶节点 $(4, 7)$ 为当前最近点 $o$ 。目标点与最近点 $o$ 的距离是为3.202。
第三步：递归向上回退，回退到 $(5, 4)$ 点。(a)目标点与(5,4)之间的距离为：3.041，所以 $(5, 4)$ 点比当前最近点 $o$ 距离目标点 $x$ 更近，则更新当前最近点 $o$ 为 $(5, 4)$ 。(b)以目标点 $x$ 为圆心，以目标点与“当前最近点 $o$ ”间的距离为半径的圆与当前最近点 $o (5, 4)$ 的另一个子节点 $(2, 3)$ 对应的区域相交。所以我们移动到 $(2, 3)$ 点， $(2, 3)$ 点距离目标点比当前的最近点 $o (5, 4)$ 要近，所以最近点o更新为 $(2, 3)$ 。接着继续往上回退为 $(7, 2)$ 点， $(7, 2)$ 点距离目标点比 $(2, 3)$ 点距离目标点要远。
第四步：回退到根结点，搜索结束。此时最近点 $o (2, 3)$ 为目标点 $x (2, 4.5)$ 的最近邻点。