概括
这篇博客分析了论文Indexing Metric Spaces with M-tree(后文简称M-Tree或M树),我将从以下几个方面介绍它:
- 背景
- M-Tree的结构
- M-Tree的插入
- M-Tree的分裂
- 如何使用M-Tree进行range搜索
- M-Tree的代码
背景
M-tree被设计为了解决最近邻搜索问题(NN)或范围搜索问题。以生活中的例子作为说明,最近邻搜索问题(NN)指的是,给定一个地理位置,在数据集中找到距离给定位置最近的目标(比如最近的饭店,最近的银行等等)。
范围搜索问题指的是,给定一个地理位置和搜索范围,在数据集中找到距离小于范围的所有目标。
M-Tree核心思路
M-tree使用圆形(二维情况)覆盖空间区域。每个圆涵盖了一部分数据所在的区域。对于查询目标,M-tree确定哪个圆和目标区域相交,若相交,则继续探测对应的圆。若不相交则滤除对应的圆,这意味着该圆涵盖的数据都不需要进行判断,减少了需要探测的数据量。本质上,M-tree从上到下就是一个大圆包含小圆的结构。
M-Tree的结构
在这一节分析如果构建M-tree。M-Tree使用圆来划分区域,因此每个结点存在一个圆心和一个半径。M-Tree的分为两类结点:内结点,叶结点。每个结点存储0~M个孩子结点。每个结点的多个属性我们用一个entry类来组织,不同类型的结点entry类是不同的:
内节点:它是包含了
- entry ( O r ) = [ O r , ptr ( T ( O r ) ) , r ( O r ) , d ( O r , P ( O r ) ) ] \operatorname{entry}\left(O_{r}\right)=\left[O_{r}, \operatorname{ptr}\left(T\left(O_{r}\right)\right), r\left(O_{r}\right), d\left(O_{r}, P\left(O_{r}\right)\right)\right] entry(Or)=[Or,ptr(T(Or)),r(Or),d(Or,P(Or))]
O r O_r Or是结点圆心值,