k近邻算法与kd树的创建和搜索_采用 k 近邻算法,给出 kd 树的构造方法和 kd 树的搜索方法。通过交叉验证,选择超-CSDN博客

本文链接：https://blog.csdn.net/hit2015spring/article/details/75425765

$\frac{hit2015spring}{晨凫追风}$

欢迎关注我的博客：http://blog.csdn.NET/hit2015spring

是一种常用的监督学习的方法：给定测试样本，基于某种距离度量找出训练集中与其最靠近的k个训练样本，然后基于k个邻居的信息来进行预测。通常：

分类任务中用投票，选择k个样本中出现最多的类别标记作为预测结果
回归任务中：平均法
还可以基于距离的远近进行加权平均或者加权投票，距离越近权重越大

没有显示的训练过程，训练时间开销为0，是一种懒惰学习

分类的结果与k的选择和距离计算方式的选择有关系

k近邻分类器示意图

上图可以看出二维空间中，距离的计算方式不同，包含的区域也是不相同的。故会影响结果

k值得选择也会对结果产生影响，k值小的话，相当于用较小的邻域中的训练实例进行预测，学习的近似误差会减小，只有与输入实例较近的训练实例才会对预测结果起作用，但是估计误差会增大，意味着会产生过拟合。

实现k近邻方法时，面临一个计算速度的挑战问题，当特征空间的维数非常大以及训练数据非常大的时候，我们优化这个搜索的方法就显得尤为重要了

一般方法：最简单的是实现一个线性扫描，就是计算输入的实例与每一个训练实例之间的距离，训练集很大的时候，计算会耗时很长，于是就出现了kd树的这种方法。

构造kd树的数学描述比较难懂：

输入的是 $k$ 维空间数据集 $T=\{x_1,x_2,\cdots,x_N\}$