机器学习之 kd 树

参考自:https://mp.weixin.qq.com/s?__biz=MzI4MDYzNzg4Mw==&mid=2247483793&idx=1&sn=d42f4f06225cd1f792912dfecdc800ea&chksm=ebb43945dcc3b0538ba10187c999a050137b96a05f402b9fe99f0a972d7ba0bce5067bf7efb3&mpshare=1&scene=23&srcid=1029EnTdXfHf4b45SihbuUI5&sharer_sharetime=1572360664183&sharer_shareid=d8bca9e359802bb5fd2f5f050eec21a4#rd

 

一、构造 kd 树

实现 k 近邻法时,主要考虑的问题是如何对训练数据进行快速 k 近邻搜索,为了提高搜索的效率,可以使用特殊的结构存储训练数据,以减少计算距离的次数,这里介绍的就是 kd 树方法。

kd 树的结构:

kd树是一个二叉树结构,它的每一个节点记载了【特征坐标,切分轴,指向左枝的指针,指向右枝的指针】。其中,特征坐标是线性空间 Rn 中的一个点 (x1,x2,…,xn)切分轴由一个整数 r 表示,这里 1≤r≤n,是我们在 n 维空间中沿第 r维进行一次分割。节点的左枝和右枝分别都是 kd 树,并且满足:如果 y 是左枝的一个特征坐标,那么 yr≤xr(左分支结点);并且如果 z 是右枝的一个特征坐标,那么 zr≥xr(右分支结点)。

给定一个数据样本集 S⊆Rn 和切分轴 r,以下递归算法将构建一个基于该数据集的 kd 树,每一次循环制作一个节点:

−− 如果 |S|=1,记录 S 中唯一的一个点为当前节点的特征数据,并且不设左枝和右枝。(|S| 指集合 S 中元素的数量)
−− 如果 |S|>1

  • 将 S 内所有点按照第 r 个坐标的大小进行排序

  • 选出该排列后的中位元素(如果一共有偶数个元素,则选择中位左边或右边的元素,左随便哪一个都无所谓),作为当前节点的特征坐标,并且记录切分轴 r;

  • 将 SL设为在 S 中所有排列在中位元素之前的元素; SR 设为在 S 中所有排列在中位元素后的元素;

  • 当前节点的左枝设为以 SL 为数据集并且 r 为切分轴制作出的 kd 树;当前节点的右枝设为以 SR 为数据集并且 r为切分轴制作出的 kd 树。再设 r←(r+1)modn。(这里,我们想轮流沿着每一个维度进行分割;modn 是因为一共有 n 个维度,沿着最后一个维度进行分割之后再重新回到第一个维度。

 

案例:

给定一个二维空间的数据集:T = {(2,3),(5,4),(9,6),(4,7),(8,1),(7,2)}, 构造一个平衡kd树。为了方便,我这里进行编号A(2,3)、B(5,4)、C(9,6)、D(4,7)、E(8,1)、F(7,2)初始值r=0,对应x轴。可视化数据点如下:

首先先沿 x 坐标进行切分,我们选出 x 坐标的中位点,获取最根部节点的坐标,对数据点x坐标进行排序得:

A(2,3)、D(4,7)、B(5,4)、F(7,2)、E(8,1)、C(9,6)

则我们得到中位点为B或者F,我这里选择F作为我们的根结点,并作出切分(并得到左右子树),如图:

 

 

对应的树结构如下:

 

 

根据算法,此时r=r+1=1,对应y轴,此时对应算法|S|>1,则我们分别递归的在F对应的左子树与右子树按y轴进行分类,得到中位节点分别为B,C点,如图所示:

 

对应树结构为:

 

而到此时,B的左孩子为A,右孩子为D,C的左孩子为E,均满足|S|==1,此时r = (r+1)mod2 = 0,又满足x轴排序,对x轴划分!则如图所示:

对应树结构如下:

到这里为止,给定的kd树构造完成啦,所有的数据点都能在树上的每个结点找到!

 

二、搜索 kd 树

 

(1)在kd树中找出包含目标点x的叶结点:从根结点出发,递归地向下访问kd树,若目标点x当前维的坐标小于切分点的坐标,则移动到左子节点,否则移动到右子结点.直到子结点为叶结点位置.

(2)以此叶结点为“当前最近点”

(3)递归地向上回退,在每个结点进行以下操作:

  1. 如果该结点保存的实例点比当前最近点距离目标点更近,则以该实例点为“当前最近点”.
  2. 当前最近点一定存在于该结点一个子结点对应的区域.检查该子结点的父结点的另一个子结点对应的区域是否有更近的点.具体地,检查另一子结点对应的区域是否以目标点为球心、以目标点与“当前最近点”间为半径的超球体相交。如果不相交,向上回退。

(4)当回退到根结点时,搜索结束。最后的“当前最近点”即为最近邻点.2

 

 

案例:

沿用上面的 kd 树,输入目标实例为K(8.5,1),求K的最近邻。

首先我们由上面可以给出,T的kd树对应如下:

 

我们此时的 K(8.5,1),根据算法第一步得:第一层的 x 轴 K 点为 8.5 大于F点的7,所以进入F(7,2)的右子树,进入下面红色线条区域:

到了第二层,分割平面坐标为y轴,K点y轴坐标为1,小于C点y轴坐标6,则向左走,在下图红色线条区域内:

则此时算法对应第(1)部分完成,我们找到了叶子节点E(8,1)。我们进行算法第(2)步,把E(8,1)作为最近邻点。此时我们算一下KE之间的距离为0.5(便于后面步骤用到).

然后进行算法第(3)步,递归的往上回退,每个结点进行相同步骤,好,我现在从E点回退到C点,对应图片如下;

此时对C点进行第(3)步的(a)操作,判断一下KC距离与保存的最近邻距离(这时是KE)比较,KC距离为点K(8.5,1)与点C(9,6)之间的距离>最近邻0.5。

于是不更新最近邻点。然后对C点进行第(3)步的(b)操作,判断一下当前最近邻的距离画一个圆是否与C点切割面相交,如图所示:

我们很容易看到与C点切割面并没有相交,于是执行由C点回退到它的父结点F点。如图:

 

对F点进行(a),(b)操作,进行(a)步骤,判断 FK 的距离是否小于当前保存的最小值,FK=\sqrt{(7-8.5)^{2}+(2-1)^{2}} = \sqrt{1.25} > 0.5,所以不改变最小距离。

下面我们进行(b)步骤,为了判断F点的另一半区域是否有更小的点,判断一下当前最近邻的距离画一个圆是否与F点切割面相交,如图所示:

发现与任何分割线都没有交点,那么执行算法最后一步,此时F点已经是根结点,无法进行回退,那么我们可以得到我们保留的当前最短距离点E点就是我们要找的最近邻点!任务完成。

并且根据算法流程,我们并没有遍历所有数据点,而是F点的左孩子根本没有遍历,节省了时间,但是并不是所有的kd树都能到达这样的效果。

 

 

三、kd树的不足以及最差情况举例:

 

以下通过一个例子来直观说明!

给定一个二维空间的数据集:T = {(2,3),(5,4),(9,6),(4,7),(8,1),(7,2)},输入目标实例为K(8,3),求K的最近邻。

首先我们由上面可以给出,T的kd树对应如下:

我们此时的K(8,3),根据算法第一步得:第一层的x轴K点为8大于F点的7,所以进入F(7,2)的右子树,进入下面红色线条区域:

(注意:这里叶子节点画不画分割线都没有关系!)

到了第二层,分割平面坐标为y轴,K点y轴坐标为3,小于C点y轴坐标6,则继续向左走,在下图红色线条区域内:

则此时算法对应第(1)部分完成,我们找到了叶子节点E(8,1)。

我们进行算法第(2)步,把E(8,1)作为最近邻点。此时我们算一下KE之间的距离为2(便于后面步骤用到).

然后进行算法第(3)步,递归的往上回退,每个结点进行相同步骤,好,我现在从E点回退到C点,对应图片如下;

 

此时对C点进行第(3)步的(a)操作,判断一下KC距离与保存的最近邻距离(这时是KE)比较,KC距离为点K(8,3)与点C(9,6)之间的距离>最近邻2,于是不更新最近邻点。

然后对C点进行第(3)步的(b)操作,判断一下当前最近邻的距离画一个圆是否与C点切割面相交,如图所示:

我们很容易看到与C点切割面并没有相交,于是执行由C点回退到它的父结点F点。如图:

对F点进行(a),(b)操作!进行(a)步骤,判断FK的距离是否小于当前保存的最小值,FK=<2,所以将最小距离替换为FK的距离!

下面我们进行(b)步骤,为了判断F点的另一半区域是否有更小的点,判断一下当前最近邻的距离画一个圆是否与F点切割面相交,如图所示:

我们可以看出,此时圆与F点有交点,那么说明F点左侧是有可能存在与K点距离更小的点(注:这里我们人为看起来好像没有,但是计算机不知道,必须搜索下去,只要以当前最小值画圆发现与节点切割面有交点,那么一定要进行搜索,不然数据如果是下图:)

如果不进行搜索,我们就可能会漏掉Z数据点,因为KZ比当前最小值KF小!

此时相交,我们就需要再F点的左孩子进行搜索,一直搜索到叶子节点A,然后进行(a),(b)步骤,继续回溯到它的父亲结点B,以及最后到达F点,完成最后的最近邻是F点。

这里几乎遍历了所有数据点,几乎退化了为线性时间0(n)了。这也是kd树的最差的情况。

 

  • 1
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值