好多关于balltree的博客, 但都说的不清不楚, 看得头大.
先贴一张github上搜来的balltree的节点结构:
lowest_leaf, highest_leaf不知道是什么.
left_child, right_child好解释, 左右节点.
permutation, 好像是存储什么东西的排序, 不懂.
ranges, 存储半径.
centers, 存储圆心/球心.
weights, 权重? 不懂.
dims, 维度, 估计是在叶节点生效的, 用于存储真实点的坐标.
num_points, 存储簇内有多少点.
next=1, 不懂.
首先声明
balltree是个构建很费时间的树, 但在高维空间上的效果比kdtree效果好. 所以构建和搜索时看到频繁的遍历操作, 请不要惊慌.
balltree构建方式
空间中散落着很多个点.
- 把整个空间当作一个大簇.
- 找到距离最远的两个点 a a a 和 b b b, 叫做 观测点(请记住, 最后面要考) , 以它们为种子.
- 其余的簇内点 s s s 分别计算与 a a a 和 b b b 的距离, 离 a a a 近就归到 a a a 的子簇, 对 b b b 同理.
- 该找圆心和半径了, 这涉及另一个问题: 给一堆点, 怎么找到最小半径和圆心?最小圆覆盖问题.贴个链接: 最小圆覆盖问题算法
用它解出的圆不会超出父类圆的范围, 如果超出了会增加不少麻烦, 因为超出部分必没有属于该簇的点, 还容易在搜索时被干扰, 增加搜索量.
回头看ball tree的数据结构, 发现: 因为求最小圆要随机打乱簇内点保证复杂度, 所以permutation可能是用于暂存打乱点的. - 上一步画好了圆, 就可以根据它们再分. 分别以两个圆重复1~4步, 直到只剩一个点, 就作为叶节点存储下来.
balltree搜索方式
任务来了, 给了一个balltree里的点
g
(
x
,
y
)
g(x,y)
g(x,y), 要求找出它的最近点.
虽然不能直接找到, 但balltree可以帮我们筛掉一部分点不去遍历.
首先,
g
g
g上面肯定是一个小簇, 所以从它下手, 遍历小簇里的所有点,找到最近的那个点
g
′
g'
g′.
它虽然不是最近的点, 但既然在一个簇里, 距离也不会拉太大, 所以可以依照它为标准, 寻找更近的点. 这个
g
′
g'
g′被大家叫做上界.
怎么找更近的点呢? 你可以以
g
g
g 为圆心, 以与
g
′
g'
g′ 的距离为半径画个圆, 所有在圆内的点中必有最近点. 但我们不可能遍历整个图去看哪些点在圆内, 要是能遍历全图还要balltree干嘛.
重点来了
思考一下, 如果我画的这个以上界距离为半径 r r r , 以目标点 g ( x , y ) g(x,y) g(x,y)为圆心的圆里存在一个点的话, 那这个点肯定藏在某个簇里对不对? 它藏在簇里, 也就是说藏在那个簇形成的圆里, 也就是说如果这个点存在, 那它应该在我画的圆和已有簇的圆的相交区域里. 至此, 我们可以怀疑, 所有与我们画的圆相交的簇里, 都有可能存在目标点 g g g 的最近点. 这就是balltree分簇画圆的目的.
具体怎么做
假如我们根据上界
r
r
r 和目标点
g
g
g 画出的圆与某个簇
F
F
F 画出的圆相交, 就看看它的两个子簇
c
h
i
l
d
1
,
c
h
i
l
d
2
child1, child2
child1,child2 , 我们是否和它们也相交.
假如都没有相交, 因为
F
F
F 的点都在子簇里, 我们和
F
F
F 相交的部分就不可能有点, 因为有点必定会与某个子簇相交.
假如和
c
h
i
l
d
1
child1
child1 相交,
c
h
i
l
d
2
child2
child2 不相交, 那就看看
c
h
i
l
d
1
child1
child1 里面的两个子簇
g
r
a
n
d
C
h
i
l
d
1
,
g
r
a
n
d
C
h
i
l
d
2
grandChild1, grandChild2
grandChild1,grandChild2.
假如和两个
c
h
i
l
d
child
child 都相交, 那就两个下面的子簇都看看.
就这么一直看下去, 直到我们发现我们看到了叶节点. balltree的叶节点里存储的是具体的点, 没有半径和圆心.此时直接拿点出来与目标点计算距离.
当然, 如果还没挖到叶节点, 就找不到相交的圆了, 就说明这一枝不存在相交的点, 直接放弃这一枝的搜索.
不在balltree里的点要怎么找最近点
不在balltree里, 就没法确定所在的簇, 就没法确定上界, 就没法画出贯穿一切搜索的上界圆.
所以对于这种问题, 目标点必须自己带一个上界, 例如: 求点
A
A
A在半径为
R
R
R范围内的最近点.
以下是原论文链接:
Ball*-tree: Efficient spatial indexing for constrained nearest-neighbor search in metric spaces
论文里给出的题设也是如此, 在
4
−
1
4-1
4−1节.
不过为了找到个大概的上界, 倒是可以借助每个簇中必有的点: 观测点.
每个簇都有两个观测点, 分别属于两个子簇. 它在一定程度上反映了当前簇的位置.
如果我每次取簇的两个观测点, 然后每次选择离得比较近的观测点所在的子簇, 到最后会获得一个距离上不是最近但也差不多的点.
这样我就可以以它为上界画圆, 再走一遍balltree.我的代价就是跑了两次tree.