k-d-tree(即k-dimensional tree)是一棵形如二叉树的一种非常重要的空间划分数据结构,尤其在多维数据访问中有重要应用,它能显著降低运算次数、提高运算效率;主要应用于多维空间关键数据的搜索(如:范围搜索和最近邻搜索)。它是由Jon L. Bentley 于1975年在文献【2】中提出的,Jon L. Bentley 也是畅销书《编程珠玑》的作者。k-d-tree的结构如下:
一、构建k-d-tree
k-d-tree是一棵每个节点都为k维点的二叉树,其中所有非叶子节点可以视作用一个超平面把空间分区成两个半空间( Half-space )。因为有很多种方法可以选择轴垂直分区面( axis-aligned splitting planes ),所以有很多种创建k-d-tree的方法。 最典型的方法如下:
- 随着树的深度轮流选择轴当作分区面(例如:在三维空间中根节点是 x 轴垂直分区面,其子节点皆为 y 轴垂直分区面,其孙节点皆为 z 轴垂直分区面,其曾孙节点则皆为 x 轴垂直分区面,依此类推)。通常选择具有最大方差的维度k作为开始,这样以保证在这个方向上数据更为分散。
- 每次分区时,均按照上述选择轴对应的坐标对数据样本进行排序;排序的中间点就是此次分区的根节点,剩余的数据样本分别进入左子树、右子树。
- 对上面产生的左子树、右子树继续按照上面的方法进行排序分区,最终所有的样本数据将构建一个二叉树,每个节点就是样本数据中的某个数据。
在构建k-d-tree前,有必要先说明一下其结构以便于构建树。从上面的k-d-tree结构可以看出:从根节点开始,树结构可以由中间节点和其左右两个节点以及子树构成——这是树结构的共性,也是建立树结构的基础,我们将对这个基本结构构建一个类。