BallTree结构和答疑

最新推荐文章于 2024-11-06 23:36:23 发布

蒸土豆的技术细节

最新推荐文章于 2024-11-06 23:36:23 发布

阅读量2.7k

点赞数 5

本文链接：https://blog.csdn.net/qq_39006282/article/details/103290737

版权

好多关于balltree的博客, 但都说的不清不楚, 看得头大.

先贴一张github上搜来的balltree的节点结构:
在这里插入图片描述
~~lowest_leaf, highest_leaf不知道是什么.~~
left_child, right_child好解释, 左右节点.
~~permutation, 好像是存储什么东西的排序, 不懂.~~
ranges, 存储半径.
centers, 存储圆心/球心.
~~weights, 权重? 不懂.~~
dims, 维度, 估计是在叶节点生效的, 用于存储真实点的坐标.
num_points, 存储簇内有多少点.
~~next=1, 不懂.~~

首先声明

balltree是个构建很费时间的树, 但在高维空间上的效果比kdtree效果好. 所以构建和搜索时看到频繁的遍历操作, 请不要惊慌.

balltree构建方式

空间中散落着很多个点.

把整个空间当作一个大簇.
找到距离最远的两个点 $a$ 和 $b$ , 叫做 观测点(请记住, 最后面要考) , 以它们为种子.
其余的簇内点 $s$ 分别计算与 $a$ 和 $b$ 的距离, 离 $a$ 近就归到 $a$ 的子簇, 对 $b$ 同理.
该找圆心和半径了, 这涉及另一个问题: 给一堆点, 怎么找到最小半径和圆心?最小圆覆盖问题.贴个链接: 最小圆覆盖问题算法
用它解出的圆不会超出父类圆的范围, 如果超出了会增加不少麻烦, 因为超出部分必没有属于该簇的点, 还容易在搜索时被干扰, 增加搜索量.
回头看ball tree的数据结构, 发现: 因为求最小圆要随机打乱簇内点保证复杂度, 所以permutation可能是用于暂存打乱点的.
上一步画好了圆, 就可以根据它们再分. 分别以两个圆重复1~4步, 直到只剩一个点, 就作为叶节点存储下来.

balltree搜索方式

任务来了, 给了一个balltree里的点 $g (x, y)$ , 要求找出它的最近点.
虽然不能直接找到, 但balltree可以帮我们筛掉一部分点不去遍历.
首先, $g$ 上面肯定是一个小簇, 所以从它下手, 遍历小簇里的所有点,找到最近的那个点 $g^{'}$ .
它虽然不是最近的点, 但既然在一个簇里, 距离也不会拉太大, 所以可以依照它为标准, 寻找更近的点. 这个 $g^{'}$ 被大家叫做上界.
怎么找更近的点呢? 你可以以 $g$ 为圆心, 以与 $g^{'}$ 的距离为半径画个圆, 所有在圆内的点中必有最近点. 但我们不可能遍历整个图去看哪些点在圆内, 要是能遍历全图还要balltree干嘛.

重点来了

思考一下, 如果我画的这个以上界距离为半径 $r$ , 以目标点 $g (x, y)$ 为圆心的圆里存在一个点的话, 那这个点肯定藏在某个簇里对不对? 它藏在簇里, 也就是说藏在那个簇形成的圆里, 也就是说如果这个点存在, 那它应该在我画的圆和已有簇的圆的相交区域里. 至此, 我们可以怀疑, 所有与我们画的圆相交的簇里, 都有可能存在目标点 $g$ 的最近点. 这就是balltree分簇画圆的目的.

具体怎么做

假如我们根据上界 $r$ 和目标点 $g$ 画出的圆与某个簇 $F$ 画出的圆相交, 就看看它的两个子簇 $c h i l d 1, c h i l d 2$ , 我们是否和它们也相交.
假如都没有相交, 因为 $F$ 的点都在子簇里, 我们和 $F$ 相交的部分就不可能有点, 因为有点必定会与某个子簇相交.
假如和 $c h i l d 1$ 相交, $c h i l d 2$ 不相交, 那就看看 $c h i l d 1$ 里面的两个子簇 $g r a n d C h i l d 1, g r a n d C h i l d 2$ .
假如和两个 $c h i l d$ 都相交, 那就两个下面的子簇都看看.
就这么一直看下去, 直到我们发现我们看到了叶节点. balltree的叶节点里存储的是具体的点, 没有半径和圆心.此时直接拿点出来与目标点计算距离.
当然, 如果还没挖到叶节点, 就找不到相交的圆了, 就说明这一枝不存在相交的点, 直接放弃这一枝的搜索.

不在balltree里的点要怎么找最近点

不在balltree里, 就没法确定所在的簇, 就没法确定上界, 就没法画出贯穿一切搜索的上界圆.
所以对于这种问题, 目标点必须自己带一个上界, 例如: 求点 $A$ 在半径为 $R$ 范围内的最近点.
以下是原论文链接:
Ball*-tree: Efficient spatial indexing for constrained nearest-neighbor search in metric spaces
论文里给出的题设也是如此, 在 $4 - 1$ 节.

不过为了找到个大概的上界, 倒是可以借助每个簇中必有的点: 观测点.
每个簇都有两个观测点, 分别属于两个子簇. 它在一定程度上反映了当前簇的位置.
如果我每次取簇的两个观测点, 然后每次选择离得比较近的观测点所在的子簇, 到最后会获得一个距离上不是最近但也差不多的点.
这样我就可以以它为上界画圆, 再走一遍balltree.我的代价就是跑了两次tree.