机器学习之 kd 树

最新推荐文章于 2024-02-02 21:09:30 发布

想去的远方

最新推荐文章于 2024-02-02 21:09:30 发布

阅读量1.2k

点赞数 1

分类专栏：机器学习文章标签： kd树机器学习

本文链接：https://blog.csdn.net/qq_42185999/article/details/102844717

版权

机器学习专栏收录该内容

8 篇文章 0 订阅

订阅专栏

参考自：https://mp.weixin.qq.com/s?__biz=MzI4MDYzNzg4Mw==&mid=2247483793&idx=1&sn=d42f4f06225cd1f792912dfecdc800ea&chksm=ebb43945dcc3b0538ba10187c999a050137b96a05f402b9fe99f0a972d7ba0bce5067bf7efb3&mpshare=1&scene=23&srcid=1029EnTdXfHf4b45SihbuUI5&sharer_sharetime=1572360664183&sharer_shareid=d8bca9e359802bb5fd2f5f050eec21a4#rd

一、构造 kd 树

实现 k 近邻法时，主要考虑的问题是如何对训练数据进行快速 k 近邻搜索，为了提高搜索的效率，可以使用特殊的结构存储训练数据，以减少计算距离的次数，这里介绍的就是 kd 树方法。

kd 树的结构：

kd树是一个二叉树结构，它的每一个节点记载了【特征坐标，切分轴，指向左枝的指针，指向右枝的指针】。其中，特征坐标是线性空间 Rn 中的一个点 (x1,x2,…,xn)切分轴由一个整数 r 表示，这里 1≤r≤n，是我们在 n 维空间中沿第 r维进行一次分割。节点的左枝和右枝分别都是 kd 树，并且满足：如果 y 是左枝的一个特征坐标，那么 yr≤xr（左分支结点）；并且如果 z 是右枝的一个特征坐标，那么 zr≥xr（右分支结点）。

给定一个数据样本集 S⊆Rn 和切分轴 r，以下递归算法将构建一个基于该数据集的 kd 树，每一次循环制作一个节点：

−− 如果 |S|=1，记录 S 中唯一的一个点为当前节点的特征数据，并且不设左枝和右枝。（|S| 指集合 S 中元素的数量）
−− 如果 |S|>1

将 S 内所有点按照第 r 个坐标的大小进行排序；
选出该排列后的中位元素（如果一共有偶数个元素，则选择中位左边或右边的元素，左随便哪一个都无所谓），作为当前节点的特征坐标，并且记录切分轴 r；
将 SL设为在 S 中所有排列在中位元素之前的元素； SR 设为在 S 中所有排列在中位元素后的元素；
当前节点的左枝设为以 SL 为数据集并且 r 为切分轴制作出的 kd 树；当前节点的右枝设为以 SR 为数据集并且 r为切分轴制作出的 kd 树。再设 r←(r+1)modn。（这里，我们想轮流沿着每一个维度进行分割；modn 是因为一共有 n 个维度，在沿着最后一个维度进行分割之后再重新回到第一个维度。）

案例：

给定一个二维空间的数据集：T = {（2,3），（5,4），（9,6）,（4,7），（8,1），（7,2）}，构造一个平衡kd树。为了方便，我这里进行编号A(2，3)、B（5,4）、C（9,6）、D（4,7）、E（8,1）、F（7,2）初始值r=0，对应x轴。可视化数据点如下：

首先先沿 x 坐标进行切分，我们选出 x 坐标的中位点，获取最根部节点的坐标，对数据点x坐标进行排序得：

A(2，3)、D（4,7）、B（5,4）、F（7,2）、E（8,1）、C（9,6）

则我们得到中位点为B或者F，我这里选择F作为我们的根结点，并作出切分（并得到左右子树），如图：

对应的树结构如下：

根据算法，此时r=r+1=1，对应y轴，此时对应算法|S|>1，则我们分别递归的在F对应的左子树与右子树按y轴进行分类，得到中位节点分别为B，C点，如图所示：

对应树结构为：

而到此时，B的左孩子为A，右孩子为D，C的左孩子为E,均满足|S|==1，此时r = (r+1)mod2 = 0,又满足x轴排序，对x轴划分！则如图所示：

对应树结构如下：

到这里为止，给定的kd树构造完成啦，所有的数据点都能在树上的每个结点找到！

二、搜索 kd 树

（1）在kd树中找出包含目标点x的叶结点：从根结点出发，递归地向下访问kd树，若目标点x当前维的坐标小于切分点的坐标,则移动到左子节点，否则移动到右子结点.直到子结点为叶结点位置.

（2）以此叶结点为“当前最近点”

（3）递归地向上回退，在每个结点进行以下操作：

如果该结点保存的实例点比当前最近点距离目标点更近，则以该实例点为“当前最近点”.
当前最近点一定存在于该结点一个子结点对应的区域.检查该子结点的父结点的另一个子结点对应的区域是否有更近的点.具体地，检查另一子结点对应的区域是否以目标点为球心、以目标点与“当前最近点”间为半径的超球体相交。如果不相交，向上回退。

（4）当回退到根结点时，搜索结束。最后的“当前最近点”即为最近邻点.2

案例：

沿用上面的 kd 树，输入目标实例为K(8.5,1),求K的最近邻。

首先我们由上面可以给出，T的kd树对应如下：