k近邻法学习总结

最新推荐文章于 2024-08-13 14:56:59 发布

TamSom

最新推荐文章于 2024-08-13 14:56:59 发布

阅读量859

点赞数 1

分类专栏：机器学习文章标签： 1024程序员节二叉树算法

本文链接：https://blog.csdn.net/weixin_42024702/article/details/109256388

版权

机器学习专栏收录该内容

3 篇文章 0 订阅

订阅专栏

一、前述

K近邻法(k-nearest neighbor,k-NN)是一种基本分类与回归方法。分类时，对新的实例，根据其k个最近邻的训练实例的类别，通过多数表决等方式进行预测。k近邻法不具有显示学习过程，其三个基本要素是：k值的选择、距离度量及分类决策规则。

二、k近邻法介绍

I.模型

k近邻法中，当训练集、距离量度(如欧氏距离)、k值及分类决策规则(如多数表决)确定后，对于任何一个新的输入实例，它所属的类唯一地确定。这相当于根据上述要素将特征空间划分为一些子空间，确定子空间里的每个点所属的类。特征空间中，对每个训练实例点 $x_{i}$ ，距离该点比其他点更近的所有点组成一个区域，叫作单元(cell)。每个训练实例点拥有一个单元，所有训练实例点的单元构成对特征空间的一个划分。最近邻法将实例 $x_{i}$ 的类 $y_{i}$ 作为其单元中所有点的类标记(class label)。这样，每个单元的实例点的类别是确定的。
(a)距离量度
特征空间中两个实例点的距离反应了两个实例点的相似程度。k近邻模型的特征空间一般是n维实数向量空间 $R^{n}$ 。使用的距离是欧式距离，但也可以是其他距离，如更一般的 $L_{p}$ 距离或闵可夫斯基距离(Minkowski distance)，也称p范数(该点与该空间原点的距离)，它常常被用来度量某个向量空间（或矩阵）中的每个向量的长度或大小，其公式如下： $L_{p}(x_{i},x_{j})=(\sum_{l=1}^{n}\left | x_{i} ^{(l)}-x_{j} ^{(l)} \right |^{p})^{\frac {1} {p}}$
类似的，当p=2时，称该距离为欧式距离；当p=1时，称该距离为曼哈顿距离(城区距离)；当p= $\infty$ 时，称该距离为棋盘距离。
(b)k值选择
k值的选择会对k近邻法的结果产生重大影响。
如果选择较小的k值，就相当于用较小的领域中的训练实例进行预测，"学习"的近似误差会减小，只有与输入实例较近(相似的)训练实例才会对预测结果起作用。但缺点是"学习"的估计误差会增大，如果近邻的实例点恰好是噪声，预测就会出错。换句话说，k值的减小就意味着整体模型变得复杂，容易发生过拟合。
如果选取较大的k值，就相当于用较大领域中的训练实例进行预测。其优点是减少学习的估计误差，但缺点是学习的近似误差会增大。与输入实例较远的训练实例也会对预测起作用，使预测发生错误。k值的增大就意味着整体的模型变得简单。
©分类决策规则
k近邻法中的分类决策规则往往是多数表决，即由输入实例的k个邻近的训练实例中的多数类决定输入实例的类。
如果分类的损失函数为0-1损失函数，可以将n维实数空间划分化k个超矩形区域，则分类函数为： $f:R^{n}\rightarrow \left \{ c_{1},c_{2},\cdots,c_{K} \right \}$ 对给定的实例 $x\in\chi$ ，其最近邻的k个训练实例点构成集合 $N_{k}(x)$ 。如果涵盖 $N_{k}(x)$ 的区域的类别是 $c_{j}$ ，那么误分类率是 $\frac{1}{k}\sum_{x_{i}\in N_{k}(x)}^{}I(y_{i}\neq c_{j})=1-\frac{1}{k}\sum_{x_{i}\in N_{k}(x)}^{}I(y_{i}=c_{j})$ 要使误分类率最小即经验风险最小，就要使 $\sum_{x_{i}\in N_{k}(x)}^{}I(y_{i}=c_{j})$ 最大，所以多数表决规则等价于经验风险最小化。

II.策略

多数表决规则等价于经验风险最小化。

III.算法

当训练实例点集个数N大于实例中特征向量维数k时，采用构造kd树的方法进行快速k近邻搜索，可以提高k近邻搜索的效率。
但训练实例点集个数N与实例中特征向量维数k接近时，采用线性扫描方式与kd树方式效率相差不大。

(a)构造平衡kd树：
(1)选择 $x^{(1)}$ 为坐标轴，以T中所有实例的 $x^{(1)}$ 坐标的中位数为切分点，将根结点对应的超矩形区域切分为两个子区域。切分由通过切分点并与坐标轴 $x^{(1)}$ 垂直的超平面实现，由根结点生成深度为1的左、右子结点。
(2)重复：对深度为j的结点，选择 $x^{(l)}$ 为切分的坐标轴， $l = j (m o d [k]) + 1$ ，继续按中位点的统计规则划分超矩形区域。
(3)直到两个子区域没有实例存在时停止。从而形成平衡kd树。

(b)kd树最近邻检索
(1)在kd树中找出包含目标点x的叶结点：从根结点出发，递归向下访问kd树。若目标点x当前维的坐标小于切分点坐标，则移动到左子结点，否则移动到右子结点。直到子结点为叶结点为止。
(2)以此叶结点为"当前最近点"。
(3)递归地向上回退，在每个结点进行以下操作：
①如果该结点保存的实例点比当前最近点距离目标点更近，则以该实例点为"当前最近点"。
②当前最近点一定存在于该结点一个子结点对应的区域。检查该子结点的父结点的另一子结点对应的区域是否有更近的点。具体地，检查另一子结点对应的区域是否与以目标点为球心、以目标点与"当前最近点"间的距离为半径的超球体相交。
如果相交，可能在另一个子结点对应的区域内存在距目标点更近的点，移动到另一个子节点。接着递归进行最邻近搜索。
③当退回到根结点时，搜索结束。

三、总结

k近邻法模型采用多数表决规则，即达到了经验风险最小化，将n维实数向量空间划分成k个类别，模型算法的关键是通过kd树寻找输入实例点的k个最邻近实例点，具体要通过构造kd树和对kd树检索来实现。同样的，与数据结构类似，kd树属于二叉树，算法特点是通过牺牲了空间复杂度来降低时间复杂度，以求在大量样本容量中快速找到最邻近的k个实例点。

参考文献

[1]李航.统计学习方法(第2版)[M].北京：清华大学出版社，2019.11.

TamSom

关注

1
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
k近邻法学习总结

一、前述K近邻法(k-nearest neighbor,k-NN)是一种基本分类与回归方法。分类时，对新的实例，根据其k个最近邻的训练实例的类别，通过多数表决等方式进行预测。k近邻法不具有显示学习过程，其三个基本要素是：k值的选择、距离度量及分类决策规则。二、k近邻法介绍I.模型k近邻法中，当训练集、距离量度(如欧氏距离)、k值及分类决策规则(如多数表决)确定后，对于任何一个新的输入实例，它所属的类唯一地确定。这相当于根据上述要素将特征空间划分为一些子空间，确定子空间里的每个点所属的类。特征空间中，
复制链接

扫一扫

专栏目录