【杂谈】k-d tree 矩形区域查询复杂度

OneInDark

已于 2022-07-24 21:57:33 修改

阅读量563

点赞数

分类专栏：数据结构文章标签：没什么用

于 2022-02-05 16:46:04 首次发布

本文链接：https://blog.csdn.net/qq_42101694/article/details/122791377

版权

数据结构专栏收录该内容

137 篇文章 1 订阅

订阅专栏

概述

就是一直很不理解的， $\text{k-d tree}$ 的区间查询的复杂度。

算法流程

查询一个矩形区域，如果与当前区域无交集，立刻 $\tt return$ 。
如果当前区域被完全包含，立刻 $\tt return$ 。
否则往左右子树分别递归。记此类点的数量为 $\gamma$ 。

时间复杂度

$\tt return$ 了的节点，都存在一个没有 $\tt return$ 的父节点，所以数量不超过 $2\gamma$ 。设 访问一个节点的复杂度是 $\mathcal O(1)$ ，则查询复杂度是 $\mathcal O(\gamma)$ 。问题在于求出 $\gamma$ 。

$\text{k-d tree}$ 是仿照线段树而诞生的（我猜的），所以也要仿照线段树的复杂度证明。即，如果往左右子树分别递归，那么一定是 划分线（当前点对应的那条分割线）跨过了查询区间。这会导致子节点的查询区间都 紧贴边缘（查询区间紧贴划分线，划分线就是子节点的边缘）。

对于某一维，用 $0, 1, 2$ 表示查询区间紧贴着多少个边缘。那么划分线把它 “切开” 就会导致 $0\to 1,1$ 或 $1\to 1,2$ 或 $2\to 2,2$ 。而每一维都是 $2$ ，就是被完全包含，此时会 $\tt return$ ，不能统计。

最初，每一维都是 $0$ 。若不 “切开”，则下一层点数不变，而 “切开” 可以使得点数翻倍。贪心地想，最坏情况肯定是直接把 $0$ 都 “切开” 成 $1, 1$ 。于是，过了 $k$ 层，我们就获得了 $2^k$ 个每一维都是 $1$ 的状态。

接下来就只有 $1\to 1,2$ 和 $2\to 2,2$ 两种转移。它可以看成有向图的行走（矩阵乘法）。那么，假如有 $x$ 轮移动，即 $x k$ 层，那么枚举 $1$ 第一次走到 $2$ 的时间 $t$ ，则该维上的行走情况数是 $\sum_{t=0}^x2^{x-t}=2^{x+1}-1$ 。每一维都走到 $2$ 是不合法的（不在 $\gamma$ 统计范畴内），于是枚举一个维度没走到 $2$ ，剩下的维度都乱走，则总情况数有上界 $k\cdot (2^{x+1}{\rm-}1)^{k-1}$ 。为何是上界？因为有很多种情况算重了。

层数共 $\log n$ ，再减去最初用于 “切开” 的 $k$ 层，轮数 $x=\frac{\log n-k}{k}$ 。代入上式得
$k\left(\sqrt[k]{n}-1\right)^{k-1}$

其实这只是最底层的 $\gamma$ 点数量。但是 $2^{x+1})^{k-1}$ 是指数级增长，较小的 $x$ 一定得到高阶无穷小，所以在下面的 $\text{big-}\mathcal O$ 中可以忽略。——线段树则是 $k = 1$ 的特例，此时它不是指数级增长，必须求和，所以是 $\mathcal O(\log n)$ 。

最后乘上起点的系数 $2^k$ ，用 $\mathcal O$ 做简化得
$\mathcal O(2^kkn^{1-{1\over k}})$

我感觉复杂度就是这个。而有人似乎能证明是 $\mathcal O(kn^{1-{1\over k}})$ 的，对此我只能表示： $\mathcal O(kn^{1-{1\over k}})\subseteqq\mathcal O(2^kkn^{1-{1\over k}})$ ，所以我也没错（手动滑稽）。