KD-tree的原理以及构建与查询操作的python实现

最新推荐文章于 2024-08-26 16:25:37 发布

天才暴风

最新推荐文章于 2024-08-26 16:25:37 发布

阅读量8.2k

点赞数 12

分类专栏：编程语言文章标签： python 数据结构索引

本文链接：https://blog.csdn.net/u010551621/article/details/44813299

版权

前几天小组讨论会上展示了kd-tree（k－dimension tree），感觉这玩意儿还挺有用的，所以学习了一下它的原理，然后把其中的构建kd-tree以及对应的查询操作实现了一下，现在跟大家分享一下

首先说一下什么是kd-tree把

不过首先得说一下bst(二叉查找树)，递归定义如下：如果左子树上的节点存储的数值都小于根节点中存储的数值，并且右子树上的节点存储的数值都大于根节点中存储的数值，那么这样的二叉树就是一颗二叉查找树

有了bst的概念，那么kd-tree就容易理解多了，首先kd-tree的节点中存储的数值是一个k维的数据点，而bst的节点中存储的可以视为是1维的数据点，kd-tree与bst不同的地方在于进行分支决策的时候，还需要选择一个维度的值进行比较，选择哪个维度呢？每个节点还需要维护一个split变量，表示进行分支决策的时候，选择哪个维度的值进行比较，现在给出一个kd-tree节点的定义

class KD_node:
    def __init__(self, point=None, split=None, LL = None, RR = None):
        """
        point:数据点
        split:划分域
        LL, RR:节点的左儿子跟右儿子
        """
        self.point = point
        self.split = split
        self.left = LL
        self.right = RR

point就代表节点存储的k维数据点，left,right分别代表指向左右儿子的指针，split代表划分维度，在节点进行划分之前，我们需要确定划分维度，那么怎么选择划分维度呢，这又要从kd-tree的用途开始说起了

kd-tree是一种对高维空间的数据点进行划分的特殊数据结构，主要应用就是高维空间的数据查找，如：范围搜索和K近邻(knn)搜索，范围搜索就是给定查询点和距离阈值，获取在阈值范围内的所有数据点；knn搜索就是给定查询点和搜索点的数目n，查找出到搜索点最近的n个点的数目；

以上这两种搜索如果通过传统方法来实现，那么最坏情况下可能会穷举数据急中的所有点，这种方法的缺点就是完全没有利用到数据集中蕴藏的结构信息，当数据点很多时，搜索效率不高；

事实上，实际数据集中的点一般时呈簇状分布的，所以，很多点我们是完全没有必要遍历的，索引树的方法就是对将要搜索的点进行空间划分，空间划分可能会有重叠，也可能没有重叠，kd-tree就是划分空间没有重叠的索引树

这样说可能有一点乱，那我还是以“二分查找”作为引入吧

如果给你一组数据 9 1 4 7 2 5 0 3 8

让你查找8，如果你挨个查找，那么将会把数据集都遍历一遍，

如果你排一下序那现在数据集就变成了：