BallTree结构和答疑

好多关于balltree的博客, 但都说的不清不楚, 看得头大.

先贴一张github上搜来的balltree的节点结构:
在这里插入图片描述
lowest_leaf, highest_leaf不知道是什么.
left_child, right_child好解释, 左右节点.
permutation, 好像是存储什么东西的排序, 不懂.
ranges, 存储半径.
centers, 存储圆心/球心.
weights, 权重? 不懂.
dims, 维度, 估计是在叶节点生效的, 用于存储真实点的坐标.
num_points, 存储簇内有多少点.
next=1, 不懂.

首先声明

balltree是个构建很费时间的树, 但在高维空间上的效果比kdtree效果好. 所以构建和搜索时看到频繁的遍历操作, 请不要惊慌.

balltree构建方式

空间中散落着很多个点.

  1. 把整个空间当作一个大簇.
  2. 找到距离最远的两个点 a a a b b b, 叫做 观测点(请记住, 最后面要考) , 以它们为种子.
  3. 其余的簇内点 s s s 分别计算与 a a a b b b 的距离, 离 a a a 近就归到 a a a 的子簇, 对 b b b 同理.
  4. 该找圆心和半径了, 这涉及另一个问题: 给一堆点, 怎么找到最小半径和圆心?最小圆覆盖问题.贴个链接: 最小圆覆盖问题算法
    用它解出的圆不会超出父类圆的范围, 如果超出了会增加不少麻烦, 因为超出部分必没有属于该簇的点, 还容易在搜索时被干扰, 增加搜索量.
    回头看ball tree的数据结构, 发现: 因为求最小圆要随机打乱簇内点保证复杂度, 所以permutation可能是用于暂存打乱点的.
  5. 上一步画好了圆, 就可以根据它们再分. 分别以两个圆重复1~4步, 直到只剩一个点, 就作为叶节点存储下来.

balltree搜索方式

任务来了, 给了一个balltree里的点 g ( x , y ) g(x,y) g(x,y), 要求找出它的最近点.
虽然不能直接找到, 但balltree可以帮我们筛掉一部分点不去遍历.
首先, g g g上面肯定是一个小簇, 所以从它下手, 遍历小簇里的所有点,找到最近的那个点 g ′ g' g.
它虽然不是最近的点, 但既然在一个簇里, 距离也不会拉太大, 所以可以依照它为标准, 寻找更近的点. 这个 g ′ g' g被大家叫做上界.
怎么找更近的点呢? 你可以以 g g g 为圆心, 以与 g ′ g' g 的距离为半径画个圆, 所有在圆内的点中必有最近点. 但我们不可能遍历整个图去看哪些点在圆内, 要是能遍历全图还要balltree干嘛.

重点来了

思考一下, 如果我画的这个以上界距离为半径 r r r , 以目标点 g ( x , y ) g(x,y) g(x,y)为圆心的圆里存在一个点的话, 那这个点肯定藏在某个簇里对不对? 它藏在簇里, 也就是说藏在那个簇形成的圆里, 也就是说如果这个点存在, 那它应该在我画的圆和已有簇的圆的相交区域里. 至此, 我们可以怀疑, 所有与我们画的圆相交的簇里, 都有可能存在目标点 g g g 的最近点. 这就是balltree分簇画圆的目的.

具体怎么做

假如我们根据上界 r r r 和目标点 g g g 画出的圆与某个簇 F F F 画出的圆相交, 就看看它的两个子簇 c h i l d 1 , c h i l d 2 child1, child2 child1,child2 , 我们是否和它们也相交.
假如都没有相交, 因为 F F F 的点都在子簇里, 我们和 F F F 相交的部分就不可能有点, 因为有点必定会与某个子簇相交.
假如和 c h i l d 1 child1 child1 相交, c h i l d 2 child2 child2 不相交, 那就看看 c h i l d 1 child1 child1 里面的两个子簇 g r a n d C h i l d 1 , g r a n d C h i l d 2 grandChild1, grandChild2 grandChild1,grandChild2.
假如和两个 c h i l d child child 都相交, 那就两个下面的子簇都看看.
就这么一直看下去, 直到我们发现我们看到了叶节点. balltree的叶节点里存储的是具体的点, 没有半径和圆心.此时直接拿点出来与目标点计算距离.
当然, 如果还没挖到叶节点, 就找不到相交的圆了, 就说明这一枝不存在相交的点, 直接放弃这一枝的搜索.

不在balltree里的点要怎么找最近点

不在balltree里, 就没法确定所在的簇, 就没法确定上界, 就没法画出贯穿一切搜索的上界圆.
所以对于这种问题, 目标点必须自己带一个上界, 例如: 求点 A A A在半径为 R R R范围内的最近点.
以下是原论文链接:
Ball*-tree: Efficient spatial indexing for constrained nearest-neighbor search in metric spaces
论文里给出的题设也是如此, 在 4 − 1 4-1 41节.

不过为了找到个大概的上界, 倒是可以借助每个簇中必有的点: 观测点.
每个簇都有两个观测点, 分别属于两个子簇. 它在一定程度上反映了当前簇的位置.
如果我每次取簇的两个观测点, 然后每次选择离得比较近的观测点所在的子簇, 到最后会获得一个距离上不是最近但也差不多的点.
这样我就可以以它为上界画圆, 再走一遍balltree.我的代价就是跑了两次tree.

评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值