文献分享: 带有结构化约束的关键词搜索索引

Dann Hiroaki

已于 2024-08-15 15:12:44 修改

阅读量940

点赞数 25

分类专栏：文献阅读与分享文章标签：算法数据库

于 2024-08-12 23:08:11 首次发布

本文链接：https://blog.csdn.net/qq_64091900/article/details/141144388

版权

文献阅读与分享专栏收录该内容

5 篇文章 0 订阅

订阅专栏

文章目录

0. 写在前面
1. 研究背景与导论
2. 新索引结果分析
3. 索引转换框架
4. 一种关键词下的降维技术

原文章

0. 写在前面

0.1. 通用符号

1️⃣查询有关符号

符号含义
$D$ 待查询的数据集
$e$ 带查询的对象， $e\in{}D$
$\mathrm{w}_1, \ldots, \mathrm{w}_k$ $k$ 个给定的关键词， $k$ 为给定的关键词数量
$\text{OUT}$ 查询结果(输出)的大小

2️⃣ $kd\text{-}$ 树有关符号

符号含义
$N$ 叶结点数量
$P_u$ 以 $kd\text{-}$ 树中间节点 $u$ 为根的子树的叶节点集，所对应的 $\mathbb{R}^2$ 中的点集
$\Delta_u$ $\mathbb{R}^2$ 中包住 $P_u$ 所有点的矩形，矩形长宽平行于坐标
$\text{level}(u)$ $u$ 所在的层数，默认根结点在 $0$ 层

显然 $\forall{}u\in{}\mathcal{T}$ 存在 $\left|P_u\right|=O\left(\cfrac{N}{2^{\text{level } (u)}}\right)$

0.2. 通用定义

$\textbf{Item}$ 定义
查询输入的大小 $N:=\displaystyle{}\sum_{e \in D} \mid e . \texttt{Doc}\mid$ 即所有对象的文档的总大小
关键词总数 $\left\lvert \displaystyle\bigcup_{e \in D} e . \texttt{Doc} \right\rvert$ ，当关键词转化为整数时 $[1, W]$ 就是关键词集
查询输出集 $D\left(\mathrm{w}_1, \ldots, \mathrm{w}_k\right):=$ 包含所有关键词的对象集
多重对数(符号) $\text{polylog}(N) = \log^k N$

0.3. 一些预备知识

1️⃣ $L\text{-Norm}$ ： $\left\{\begin{array}{l}\vec{p}=\left(p_1, p_2, \ldots, p_d\right) \\\\ \vec{q}=\left(q_1, q_2, \ldots, q_d\right)\end{array} \implies \right.L_q(p,q) = \displaystyle\left(\sum_{i=1}^{n} |p_i-q_1|^p \right)^{\frac{1}{p}}$

$L_1\text{: }$ 即曼哈顿距离，向量的各个分量的绝对值合
$L_2\text{: }$ 即欧几里得距离
$L_{\infty}\text{: }$ 即切比雪夫距离， $L_{\infty}(p, q)=\max _{i=1, \ldots, d}\left|p_i-q_i\right|$

2️⃣线性约束：令 $\ldots, p[d])$ 则 $p$ 受到线性约束 $\displaystyle\Leftrightarrow \sum_{i=1}^d c_i \cdot p[i] \leq c_{d+1}$

3️⃣ $k\text{-SI}$ 查询概念：给定 $m$ 个集合 $S_1, S_2, \ldots, S_m$

查询：给定常数 $k\leq{}m$ 个(整数)关键词 $\mathrm{w}_1, \mathrm{w}_2, \ldots, \mathrm{w}_k$ ，返回 $\displaystyle{}\bigcap_{i=1}^k S_{\mathrm{w}_i}$
空查询：返回 $\displaystyle{}\bigcap_{i=1}^k S_{\mathrm{w}_i}$ 是否为空

4️⃣ $kd\text{-}$ 树

定义：给定一个二叉树与点集 $P=\{x_1,x_2,...,x_N\}\subseteq{}\mathbb{R}^2$
对应关系： $\begin{cases} 叶结点i\xleftrightarrow{一一对应}点x_i\\\\ 中间结点u\xleftrightarrow{一多对应}以u为根子树的叶结点(P_u)\xleftrightarrow{一一对应}包住P_u所有点的矩形\Delta_u\\\\ 根结点r\xleftrightarrow{一一对应}所有点(P_{r}=P) \end{cases}$
分割操作：从 $u$ 开始下降 $\to{}\begin{cases}\text{level}(u)为偶数\to{}将原矩形竖切\\\\\text{level}(u)为奇数\to{}将原矩形横切\end{cases}$

示例：

符号	含义
$D$	待查询的数据集
$e$	带查询的对象， $e\in{}D$
$\mathrm{w}_1, \ldots, \mathrm{w}_k$	$k$ 个给定的关键词， $k$ 为给定的关键词数量
$\text{OUT}$	查询结果(输出)的大小

符号	含义
$N$	叶结点数量
$P_u$	以 $kd\text{-}$ 树中间节点 $u$ 为根的子树的叶节点集，所对应的 $\mathbb{R}^2$ 中的点集
$\Delta_u$	$\mathbb{R}^2$ 中包住 $P_u$ 所有点的矩形，矩形长宽平行于坐标
$\text{level}(u)$	$u$ 所在的层数，默认根结点在 $0$ 层

$\textbf{Item}$	定义
查询输入的大小	$N:=\displaystyle{}\sum_{e \in D} \mid e . \texttt{Doc}\mid$ 即所有对象的文档的总大小
关键词总数	$\left\lvert \displaystyle\bigcup_{e \in D} e . \texttt{Doc} \right\rvert$ ，当关键词转化为整数时 $[1, W]$ 就是关键词集
查询输出集	$D\left(\mathrm{w}_1, \ldots, \mathrm{w}_k\right):=$ 包含所有关键词的对象集
多重对数(符号)	$\text{polylog}(N) = \log^k N$

1. 研究背景与导论

1.1. 结构化/非结构化查询
1️⃣含义

类型含义示例实现
结构化查询基于查询对象的预设条件，来检索数据谓词查询集合索引(如 $\text{kd-}$ 树)
非结构化查询查询对象不具有任何预设模式关键词检索倒排索引

2️⃣示例：以关系Hotel(price, rating, Doc)为例
结构化查询
条件 $\mathbf{C}_1\text{: }$ 单独约束的结构化条件
SELECT * FROM Hotel 
WHERE Hotel.price BETWEEN 100 AND 200
AND Hotel.rating >= 8;
条件 $\mathbf{C}_1\text{: }$ 单独约束的结构化条件
SELECT * FROM Hotel 
WHERE c1 * Hotel.price + c2 * (10 - Hotel.rating) <= c3;
关键词查询
检索得到文档中包含了关键词的对象，关键词例如pool/parking/bathroom
$\text{Ps. }$ 一般会将关键词 $\text{Embbeding}$ 为整数
1.2. 带结构化约束的关键词搜索

1️⃣带关键词的范围查询：对于 $\subseteq \mathbb{R}^d$

类型给定条件输出集
$\text{ORP-KW}$ $d\text{-}$ 维矩形 $q + k$ 个关键词为点集， $e$ 在 $q$ 内 $+ e$ .Doc含所有关键词
$\text{RR-KW}$ $d\text{-}$ 维矩形 $q + k$ 个关键词为矩形集， $e q$ 有交叉 $+ e$ .Doc含所有关键词
$L_{\infty}\text{NN-KW}$ 目标点 $q + k$ 个关键词为点集，从 $D\left(\mathrm{w}_1, \ldots, \mathrm{w}_k\right)$ 中选择离 $q$ 最近的 $t$ 个点

2️⃣带关键词的线性连结：对于 $\subseteq \mathbb{R}^d$

类型给定条件输出集
$\text{LC-KW}$ $O (1)$ 个线性约束 $+ k$ 个关键词为点集， $e$ 满足所有约束 $+ e$ .Doc含所有关键词
$\text{SRP-KW}$ $d\text{-}$ 维球体 $q + k$ 个关键词为点集， $e$ 在 $q$ 内 $+ e$ .Doc含所有关键词
$L_{2}\text{NN-KW}$ 目标点 $q + k$ 个关键词为点集，从 $D\left(\mathrm{w}_1, \ldots, \mathrm{w}_k\right)$ 中选离 $q$ 最近的 $t$ 个点

对于 $L_{2}\text{NN-KW}$ 实际上是 $\subseteq \mathbb{N}^d$ ，且 $\mathbb{N}\propto\log{}N$

1.3. 研究现状

1.3.1. 面临的困境

1️⃣单独使用结构/关键词查询：需要需要检查大量对象，查询时间渐进等于输入数据量

2️⃣带结构化约束的关键词搜索：在实际数据上表现良好，但理论上缺乏支撑和进展

1.3.2. 本文主要研究

1️⃣设计索引转化框架，将原有仅支持谓词查询的 $kd\text{-}$ 树索引，转化为支持关键词的新索引

2️⃣以 $\text{OPR-KW}$ 为例，分析得到新索引的复杂度

3️⃣通过将结构化约束的关键词查询，转化为 $\text{k-SI}$ 查询，从而证明复杂度最优

类型	含义	示例	实现
结构化查询	基于查询对象的预设条件，来检索数据	谓词查询	集合索引(如 $\text{kd-}$ 树)
非结构化查询	查询对象不具有任何预设模式	关键词检索	倒排索引

类型	给定条件	输出集
$\text{ORP-KW}$	$d\text{-}$ 维矩形 $q + k$ 个关键词	为点集， $e$ 在 $q$ 内 $+ e$ .`Doc`含所有关键词
$\text{RR-KW}$	$d\text{-}$ 维矩形 $q + k$ 个关键词	为矩形集， $e q$ 有交叉 $+ e$ .`Doc`含所有关键词
$L_{\infty}\text{NN-KW}$	目标点 $q + k$ 个关键词	为点集，从 $D\left(\mathrm{w}_1, \ldots, \mathrm{w}_k\right)$ 中选择离 $q$ 最近的 $t$ 个点

类型	给定条件	输出集
$\text{LC-KW}$	$O (1)$ 个线性约束 $+ k$ 个关键词	为点集， $e$ 满足所有约束 $+ e$ .`Doc`含所有关键词
$\text{SRP-KW}$	$d\text{-}$ 维球体 $q + k$ 个关键词	为点集， $e$ 在 $q$ 内 $+ e$ .`Doc`含所有关键词
$L_{2}\text{NN-KW}$	目标点 $q + k$ 个关键词	为点集，从 $D\left(\mathrm{w}_1, \ldots, \mathrm{w}_k\right)$ 中选离 $q$ 最近的 $t$ 个点

2. 新索引结果分析

2.1. 复杂性分析: 黄标表示达最优 $_{见2.2}$

查询类型其它限制索引空间查询时间
$\text{ORP-KW}$ $\leq 2$ $O (N)$ $\small{}O\left(N^{1-\cfrac{1}{k}}\cdot\left(1+\text{OUT}^{\cfrac{1}{k}}\right)\right)$
$\text{ORP-KW}$ $\geq 3$ $\small{}O\left(N \cdot(\log \log N)^{d-2}\right)$ $\small{}O\left(N^{1-\cfrac{1}{k}}\cdot\left(1+\text{OUT}^{\cfrac{1}{k}}\right)\right)$
$\text{RR-KW}$ $ $\text{N/A}$ $\small{}O\left(N \cdot(\log \log N)^{2d-2}\right)$ $\small{}O\left(N^{1-\cfrac{1}{k}}\cdot\left(1+\text{OUT}^{\cfrac{1}{k}}\right)\right)$
$L_{\infin}\text{NN-KW}$ $\text{N/A}$ $\small{}O\left(N \cdot(\log \log N)^{2d-2}\right)$ $\small{}O\left(N^{1-\cfrac{1}{k}}\cdot{}t^{\cfrac{1}{k}}\cdot\log{}N\right)$
$\text{LC-KW}$ $ $d\leq{}k$ $O (N)$ $\small{}O\left(N^{1-\cfrac{1}{k}}\cdot\left(\log{}N+\text{OUT}^{\cfrac{1}{k}}\right)\right)$
$\text{LC-KW}$ $d > k$ $O (N)$ $\small{}O\left(N^{1-\cfrac{1}{d}}+N^{1-\cfrac{1}{k}}\cdot\text{OUT}^{\cfrac{1}{k}}\right)$
$\text{SRP-KW}$ $d\leq{}k-1$ $O (N)$ $\small{}O\left(N^{1-\cfrac{1}{k}}\cdot\left(\log{}N+\text{OUT}^{\cfrac{1}{k}}\right)\right)$
$\text{SRP-KW}$ $d > k - 1$ $O (N)$ $\small{}O\left(N^{1-\cfrac{1}{d}}+N^{1-\cfrac{1}{k}}\cdot\text{OUT}^{\cfrac{1}{k}}\right)$
$L_2\text{ NN-KW}$ $d\leq{}k-1$ $O (N)$ $\small{}O\left(\log{}N\cdot{}N^{1-\cfrac{1}{k}}\cdot\left(\log{}N+\text{OUT}^{\cfrac{1}{k}}\right)\right)$
$L_2\text{ NN-KW}$ $d > k - 1$ $O (N)$ $\small{}O\left(N^{1-\cfrac{1}{d+1}}+N^{1-\cfrac{1}{k}}\cdot{}t^{\cfrac{1}{k}}\right)$

2.2. 紧致性讨论: $\tiny{}O\left(N^{1-\cfrac{1}{k}}\cdot\left(1+\text{OUT}^{\cfrac{1}{k}}\right)\right)$ 最优

2.2.1. $k\text{-SI}$ 查询的等价: 将原问题分析转化为对 $k\text{-SI}$ 的分析

1️⃣ $k\text{-SI}$ 查询 $\xleftrightarrow{等价}$ 纯粹关键词查询

$\displaystyle{}D\left(\mathrm{w}_1, \ldots, \mathrm{w}_k\right)\xRightarrow{}\bigcap_{i=1}^k S_{\mathrm{w}_i}$ ：令集合 $S_{\mathrm{w}_i}$ 收集所有包含了 $\mathrm{w}_i$ 关键词的对象 $e$ (倒排索引)
$\displaystyle{}\displaystyle{}D\left(\mathrm{w}_1, \ldots, \mathrm{w}_k\right)\xLeftarrow{}\bigcap_{i=1}^k S_{\mathrm{w}_i}$ ：为每个对象 $e\in{}\displaystyle{}D=\bigcup_{i=1}^m S_i$ 创建关键词 $e .$ Doc $:=\left\{i \mid e \in S_i\right\}$
例如： $S_1S_3$ 包含 $e$ 则 $e .$ Doc $\text{=\{1,3\}}$ ，将同时拥有这些关键词转化为同时在这些集合中

2️⃣ $k\text{-SI}$ 查询 $\xleftrightarrow{等价}$ 结构化限制的关键词查询：

以搜索矩形 $q\in{}\mathbb{R}^d$ 的 $\text{ORP-KW}$ 为例：只需要基于之前的操作，将 $e\in{}D$ 映射到 $\mathbb{R}^d$ 任一点即可
类似可得： $\text{ORP-KW/RR-KW/LC-KW}$ 本质上都是 $k\text{-SI}$ 查询的泛化

2.2.2. $k\text{-SI}$ 查询紧致性分析基础

1️⃣ $k\text{-SI}$ 被广泛验证的两个猜想：对于 $\displaystyle{}N:=\sum_{i=1}^m\left|S_i\right|$ 有

猜想 $\delta$ 给定查询时间必须使用的索引空间大小
强相交 $\delta \in(0,1]$ $O\left(N^{1-\delta}+\text{OUT}\right)$ $\Omega\left(\cfrac{N^{1+\delta}}{\text{polylog }N}\right)$
强 $k$ 不相交 $\delta \in(0,1-\cfrac{1}{k}]$ $O\left(N^{1-\cfrac{1}{k}-\delta}\right)$ $\Omega\left(\cfrac{N^{1+k\delta}}{\text{polylog }N}\right)$

2️⃣引理：如果索引结构 $1$ 存在，则索引结构 $2$ 也必定成立

索引索引空间查询时间
$1$ $O\left(N\cdot\text{polylog }N\right)$ $O\left(N^{1-\cfrac{1}{k}}+N^{1-\cfrac{1}{k}} \cdot \text { OUT }^{\cfrac{1}{k}-\epsilon}+\mathrm{OUT}\right)$
$2$ $O\left(N\cdot\text{polylog }N\right)$ $O\left(N^{1-\min \left\{\cfrac{1}{k}, \cfrac{\epsilon}{1-\frac{1}{k}+\epsilon}\right\}}+\mathrm{OUT}\right)$

2.2.3. 多项式紧致性分析

🤔先说结论： $k\text{-SI}$ 查询满足以下性质

$给定索引空间O\left(N\cdot\text{polylog }N\right)\implies最优查询时间为O\left(N^{1-\cfrac{1}{k}}\left(1+\text { OUT }^{\cfrac{1}{k}}\right)+\text{OUT}\right)$
$\text{Ps. }$
$展开后的三项多项式都达到了最优$
$\text{显而易见有}\displaystyle\lim_{k \to \infty} O\left(N^{1-\cfrac{1}{k}}\left(1+\text{OUT}^{\cfrac{1}{k}}\right) + \text{OUT}\right) = O(N + \text{OUT})$

1️⃣ $O\left(N^{1-\cfrac{1}{k}}\right)$ 为最优证明：

假设存在更优解 $O\left(N^{1-\cfrac{1}{k}-\epsilon}+N^{1-\cfrac{1}{k}}\cdot\text { OUT }^{\cfrac{1}{k}}+\text{OUT}\right)$
整个 $k\text{-SI}$ 查询在 $\text{OUT}$ 为空时最快，达到 $O\left(N^{1-\cfrac{1}{k}-\epsilon}\right)$
这就是 $k\text{-SI}$ 空查询的时间，等于这个时间返回 $1$ ，超出这个时间则立即终止并返回 $0$

根据强 $k$ 不相交猜想，索引空间为 $\Omega\left(\cfrac{N^{1+k\delta}}{\text{polylog }N}\right)$ 与 $O\left(N\cdot\text{polylog }N\right)$ 冲突，所以已最优

2️⃣ $O\left(N^{1-\cfrac{1}{k}}\right)\cdot\text { OUT }^{\cfrac{1}{k}}$ 为最优证明：

对于 $\delta=\min \left\{\cfrac{1}{k}, \cfrac{\epsilon}{1-\frac{1}{k}+\epsilon}\right\}$ ，考虑引理中的两个索引
如果索引 $1$ 存在 $\xrightarrow{引理}$ 索引 $2$ 存在 $\begin{cases}\xrightarrow{强相交猜想}索引空间至少为\Omega\left(\cfrac{N^{1+\delta{}}}{\text{polylog }N}\right)\\\\索引空间为O\left(N\cdot\text{polylog }N\right)\end{cases}\xrightarrow{上下不符}矛盾$
所以索引 $1$ 不存在，即不可能优化到索引 $1$ 中所示的查询时间

3️⃣ $O\left(\text{OUT}\right)$ 最优：因为输出不可避免

查询类型	其它限制	索引空间	查询时间
$\text{ORP-KW}$	$\leq 2$	$O (N)$	$\small{}O\left(N^{1-\cfrac{1}{k}}\cdot\left(1+\text{OUT}^{\cfrac{1}{k}}\right)\right)$
$\text{ORP-KW}$	$\geq 3$	$\small{}O\left(N \cdot(\log \log N)^{d-2}\right)$	$\small{}O\left(N^{1-\cfrac{1}{k}}\cdot\left(1+\text{OUT}^{\cfrac{1}{k}}\right)\right)$
$\text{RR-KW}$ $	$\text{N/A}$	$\small{}O\left(N \cdot(\log \log N)^{2d-2}\right)$	$\small{}O\left(N^{1-\cfrac{1}{k}}\cdot\left(1+\text{OUT}^{\cfrac{1}{k}}\right)\right)$
$L_{\infin}\text{NN-KW}$	$\text{N/A}$	$\small{}O\left(N \cdot(\log \log N)^{2d-2}\right)$	$\small{}O\left(N^{1-\cfrac{1}{k}}\cdot{}t^{\cfrac{1}{k}}\cdot\log{}N\right)$
$\text{LC-KW}$ $	$d\leq{}k$	$O (N)$	$\small{}O\left(N^{1-\cfrac{1}{k}}\cdot\left(\log{}N+\text{OUT}^{\cfrac{1}{k}}\right)\right)$
$\text{LC-KW}$	$d > k$	$O (N)$	$\small{}O\left(N^{1-\cfrac{1}{d}}+N^{1-\cfrac{1}{k}}\cdot\text{OUT}^{\cfrac{1}{k}}\right)$
$\text{SRP-KW}$	$d\leq{}k-1$	$O (N)$	$\small{}O\left(N^{1-\cfrac{1}{k}}\cdot\left(\log{}N+\text{OUT}^{\cfrac{1}{k}}\right)\right)$
$\text{SRP-KW}$	$d > k - 1$	$O (N)$	$\small{}O\left(N^{1-\cfrac{1}{d}}+N^{1-\cfrac{1}{k}}\cdot\text{OUT}^{\cfrac{1}{k}}\right)$
$L_2\text{ NN-KW}$	$d\leq{}k-1$	$O (N)$	$\small{}O\left(\log{}N\cdot{}N^{1-\cfrac{1}{k}}\cdot\left(\log{}N+\text{OUT}^{\cfrac{1}{k}}\right)\right)$
$L_2\text{ NN-KW}$	$d > k - 1$	$O (N)$	$\small{}O\left(N^{1-\cfrac{1}{d+1}}+N^{1-\cfrac{1}{k}}\cdot{}t^{\cfrac{1}{k}}\right)$

猜想	$\delta$	给定查询时间	必须使用的索引空间大小
强相交	$\delta \in(0,1]$	$O\left(N^{1-\delta}+\text{OUT}\right)$	$\Omega\left(\cfrac{N^{1+\delta}}{\text{polylog }N}\right)$
强 $k$ 不相交	$\delta \in(0,1-\cfrac{1}{k}]$	$O\left(N^{1-\cfrac{1}{k}-\delta}\right)$	$\Omega\left(\cfrac{N^{1+k\delta}}{\text{polylog }N}\right)$

索引	索引空间	查询时间
$1$	$O\left(N\cdot\text{polylog }N\right)$	$O\left(N^{1-\cfrac{1}{k}}+N^{1-\cfrac{1}{k}} \cdot \text { OUT }^{\cfrac{1}{k}-\epsilon}+\mathrm{OUT}\right)$
$2$	$O\left(N\cdot\text{polylog }N\right)$	$O\left(N^{1-\min \left\{\cfrac{1}{k}, \cfrac{\epsilon}{1-\frac{1}{k}+\epsilon}\right\}}+\mathrm{OUT}\right)$

3. 索引转换框架

3.0. Intro

🤔要干啥：原始 $kd\text{-}$ 树: 纯集合索引 $\xrightarrow{索引转换框架}$ 调整 $kd\text{-}$ 树: 支持关键词查询 (此处以 $\text{ORP-KW}$ 为例)

🚀聚焦的问题： $\text{ORP-KW}$ 的时间复杂度为 $O\left(N^{1-\cfrac{1}{k}}\cdot\left(1+\text{OUT}^{\cfrac{1}{k}}\right)\right)$

3.1. 数据结构

0️⃣一般位置假设：所有对象 $e\in{}D\subseteq{}\mathbb{R}^2$ 无共享的 $x y$ 坐标，以下分析都基于这个假设

1️⃣在 $D$ 的详细集上构建 $kd\text{-}$ 树 $\mathcal{T}$ ：对于 $e\in{}D$ 通过以下规则构建详细集 $p\in{}P$

原集合 $D$ 详细集 $P$
单个 $e_1\in{}D$ $\mid{}e_1.$ Doc $\mid{}$ 个 $e_1\in{}P$
单个 $e_2\in{}D$ $\mid{}e_2.$ Doc $\mid{}$ 个 $e_2\in{}P$
… …

2️⃣定义结点 $u$ 的活动/枢纽集

定义：考虑在 $kd\text{-}$ 树的 $u$ 结点发生以下分割

$u$ 的活动集 $D_u^{act}$ ： $\begin{cases}D_u^{act}\xLeftrightarrow{}\Delta_{u}\\\\D_{v_1}^{act}/D_{v_2}^{act}\xLeftrightarrow{}\Delta_{v_1}/\Delta_{v_2}\end{cases}$
$u$ 的枢纽集 $D_u^{pvt}$ ： $\Delta_{v_1}$ 或 $\Delta_{v_2}$ 边界上对象的集合

性质： $D_u^{pvt} \subseteq D_u^{act} \subseteq D$ ， $D_u^{pvt}|=O(1)$

3️⃣定义结点 $u$ 的大小关键字

定义：如果关键字 $\mathrm{w}$ 在 $u$ 处满足 $\left|D_u^{a c t}(\mathrm{w})\right| \geq N_u^{1-\frac{1}{k}}$ 则 $\mathrm{w}$ 为 $u$ 大关键字，反之为小关键字
$D_u^{act}(\mathrm{w}) := \left\{ e \in D_u^{act} \mid \mathrm{w} \in e . \verb|DOC| \right\}$ 即 $u$ 活动集中包含 $\mathrm{w}$ 关键字的对象集
$N_u := \displaystyle\sum_{e \in D_u^{act}} |e . \verb|DOC||$ 即 $u$ 活动集中每个对象关键词数量总，显然 $N_u \leq\left|P_u\right|=O\left(\cfrac{N}{2^{\text {level }(u)}}\right)$

性质： $u$ 处最多只能有 $N_u^{\frac{1}{k}}$ 个大关键字

4️⃣定义结点 $u$ 的复数附属结构 $T_u$

$T_u$ 功能
$T_u$ 输入 $T_u$ 输出适用
结点 $u$ 枢纽集 $D_u^{pvt}$ 中间 $+$ 叶结点
结点 $u$ ，关键字 $\mathrm{w}$ $\mathrm{w}$ 在 $u$ 是否为大关键字中间结点
结点 $u$ ， $u$ 处 $k$ 个大关键字 $\mathrm{w}_1, \ldots, \mathrm{w}_k$ ， $u$ 子节点 $v$ $\displaystyle{}\bigcap_{i=1}^k D_v^{act}\left(\mathrm{w}_i\right)$ 是否为空中间结点

$T_u$ 执行时间： $O(N_u^{\frac{1}{k}})\text{ word}+O(N_u)\text{ bit}$

5️⃣数据结构的物化

含义：数据结构从概念模型 $\to$ 内存实体
$D_u^{act}(\mathrm{w})$ 物化的条件： $\mathrm{w}$ 是 $u$ 处的小关键字 $+$ $\mathrm{w}$ 在 $u$ 的所有祖先处为大关键字

3.2. 转换算法: 以 $\text{ORP-KW}$ 查询为例

1️⃣算法的一些模块化操作：给定矩形 $q$ 和关 $\mathbb{W}=\{\mathrm{w}_1, \ldots, \mathrm{w}_k\}$ 键词

访问结点 $u$ 操作
读取 $\forall{}e\in{}D_u^{pvt}$
如果 $e$ 被 $q$ 覆盖 $+ e .$ Doc包含所有关键词，则报告 $e$

下降判断操作：要求以下两个操作同时返回是，才访问 $u$ 的子节点 $v$
$u+关键字集\mathbb{W}\xrightarrow{T_u}\begin{cases}\mathbb{W}在u都为大关键字+子节点v\xrightarrow{T_u}\begin{cases}\displaystyle{}\bigcap_{i=1}^k D_v^{act}\left(\mathrm{w}_i\right)空\to{否}\\\\\displaystyle{}\bigcap_{i=1}^k D_v^{act}\left(\mathrm{w}_i\right)不空\to{是}\end{cases}\\\\\mathbb{W}在u存在小关键字\to{}否\end{cases}$
矩形 $q$ 与子节点对应矩形 $\Delta_v$ 有交叉 $\to{}$ 是

停止下降后的报告操作：假设 $u$ 处含有小关键字 $\mathrm{w}_i$ 从而导致下降终止
物化 $D_u^{act}\left(\mathrm{w}_i\right)$ ( $u$ 的活动集中包括了 $\mathrm{w}_i$ 关键词的对象)
检查所有 $e\in{}D_u^{act}\left(\mathrm{w}_i\right)$ ，如果 $e$ 被 $q$ 覆盖 $+ e .$ Doc包含所有关键词，则报告 $e$

2️⃣算法结构

算法流程

算法最终输出： $\cap D\left(\mathrm{w}_1, \ldots, \mathrm{w}_k\right)$

3.3. 算法分析：交叉敏感性的界定

1️⃣辅助数据结构

查询子树 $\mathcal{T}_{\text {qry}}$ ：对 $\mathcal{T}_{\text {}}$ 执行查询过程中遍历的点，所得到的子树
交叉子树 $\mathcal{T}_{\text {cross}}$ ： $\mathcal{T}_{\text {qry}}$ 中交叉结点构成的子树
覆盖结点： $\mathcal{T}_{\text {qry}}$ 中，满足对应矩形 $\Delta_{}u\subseteq$ 查询矩形 $q$ 的结点 $u$
交叉结点： $\mathcal{T}_{\text {qry}}$ 中其它

2️⃣复杂度分析

算法所处理的结构时间复杂度
$\mathcal{T}_{\text {qry}}$ 中间结点 $O (1)$
$\mathcal{T}_{\text {qry}}$ 叶节点 $O\left(N_z^{1-\frac{1}{k}}\right)$
覆盖结点总耗时 $O\left(N^{1-\cfrac{1}{k}}\left(1+\mathrm{OUT}^{\cfrac{1}{k}}\right)\right)$
交叉结点总耗时 $\displaystyle{}\sum_{\text {int } u \text { of } \mathcal{T}_{\text {cross }}} O(1)+\sum_{\text {leaf } z \text { of } \mathcal{T}_{\text {cross }}} O\left(N_z^{1-\frac{1}{k}}\right)$

总体复杂度 $=$ 覆盖节点耗时 $+$ 交叉节点耗时
对大多数索引来说，覆盖结点总耗时都不变，形成差异化的是交叉结点耗时，故定义为交叉敏感性

3️⃣交叉敏感性的界定

对任意二维矩形查询区域 $q$ ，交叉敏感性为 $O\left(N^{1-\frac{1}{k}}\right)$
由此可得 $\text{ORP-KW}$ 查询的总耗时就是 $O\left(N^{1-\cfrac{1}{k}}\left(1+\mathrm{OUT}^{\cfrac{1}{k}}\right)\right)$

证明思路：
处理特殊情况： $q$ 为垂线时交叉敏感性为 $O\left(N^{1-\frac{1}{k}}\right)$
处理一般情况：
$kd\text{-}$ 树压缩： $kd\text{-}$ 树每偶数层仅一点在 $\mathcal{T}_{\text {cross}}$ 中 $\to{}$ 删除(非叶)偶数层让上下的奇数层直连

对简化的树结构分析可得，交叉敏感性任然是 $O\left(N^{1-\frac{1}{k}}\right)$

原集合 $D$	详细集 $P$
单个 $e_1\in{}D$	$\mid{}e_1.$ `Doc` $\mid{}$ 个 $e_1\in{}P$
单个 $e_2\in{}D$	$\mid{}e_2.$ `Doc` $\mid{}$ 个 $e_2\in{}P$
…	…

$T_u$ 输入	$T_u$ 输出	适用
结点 $u$	枢纽集 $D_u^{pvt}$	中间 $+$ 叶结点
结点 $u$ ，关键字 $\mathrm{w}$	$\mathrm{w}$ 在 $u$ 是否为大关键字	中间结点
结点 $u$ ， $u$ 处 $k$ 个大关键字 $\mathrm{w}_1, \ldots, \mathrm{w}_k$ ， $u$ 子节点 $v$	$\displaystyle{}\bigcap_{i=1}^k D_v^{act}\left(\mathrm{w}_i\right)$ 是否为空	中间结点

算法所处理的结构	时间复杂度
$\mathcal{T}_{\text {qry}}$ 中间结点	$O (1)$
$\mathcal{T}_{\text {qry}}$ 叶节点	$O\left(N_z^{1-\frac{1}{k}}\right)$
覆盖结点总耗时	$O\left(N^{1-\cfrac{1}{k}}\left(1+\mathrm{OUT}^{\cfrac{1}{k}}\right)\right)$
交叉结点总耗时	$\displaystyle{}\sum_{\text {int } u \text { of } \mathcal{T}_{\text {cross }}} O(1)+\sum_{\text {leaf } z \text { of } \mathcal{T}_{\text {cross }}} O\left(N_z^{1-\frac{1}{k}}\right)$

4. 一种关键词下的降维技术

4.0. Intro

🚀聚焦的问题：用一种降维技术，使每二维以后增加一个维度， $\text{ORP-KW}$ 空间复杂度只加 $O(\log^2 N)$

🌵分析的基础：关于 $\text{ORP-KW}$ 索引的一个引理，如果索引 $1$ 存在，则索引 $2$ 也一定存在

索引维度限制索引空间查询时间
$\text{ORP-KW}$ (索引 $1$ ) $d=\lambda{}\geq{}2$ $O\left(N \cdot(\log \log N)^{\lambda-2}\right)$ $\left(N^{1-\cfrac{1}{k}}\cdot\left(1+\text{OUT}^{\cfrac{1}{k}}\right)\right)$
$\text{ORP-KW}$ (索引 $2$ ) $d=\lambda{}+1$ $O\left(N \cdot(\log \log N)^{\lambda-1}\right)$ $\left(N^{1-\cfrac{1}{k}}\cdot\left(1+\text{OUT}^{\cfrac{1}{k}}\right)\right)$

$\text{Ps. }$ 对于 $D\subset{}\mathbb{R}^{\lambda{}+1}$ 称第一维度为 $x$ 维

🤔分析思路：上述引理 $+$ 二维时 $\text{ORP-KW}$ 的复杂度分析 $\to$ 高纬时 $\text{ORP-KW}$ 的复杂度

4.1. 数据结构

1️⃣基础的一些定义

子集权重： $\displaystyle{}\text {weight }\left(D^{\prime}\right):=\sum_{e \in D^{\prime}\subseteq D} \mid e . \verb|DOC| \mid$ ，显然有 $\text{weight}\left(D^{\prime}\right) \geq\left|D^{\prime}\right|$
$D^{\prime}$ 的 $f\text{-}$ 平衡分割：无论 $D^{\prime}$ 和 $f$ 如何，总有一元组 $\left(D_1, D_2, \ldots, D_f, e_1^*, e_2^*, \ldots, e_{f-1}^*\right)$ 满足
$D_i\subseteq{}D$ ， $e_i\in{}D^{\prime}$ 或者 $e_i=\text{null}$
$D_1, D_2, \ldots, D_f,\left\{e_1^*\right\},\left\{e_2^*\right\}, \ldots,\left\{e_{f-1}^*\right\}$ 彼此互斥，并且并集为 $D^{\prime}$
$D_i$ 中每个对象的 $x$ 坐标，都小于 $D_{i+k}$ 中每个对象的 $x$ 坐标
$\text{weight}\left(D_{i}\right) \leq\cfrac{\text{weight}\left(D_{i}\right)}{f}$

2️⃣定义树 $\mathcal{T}$ 的活动/枢纽集

$u\in{\mathcal{T}}$ 中活动集 $D_u^{act}$ ：与先前定义一样与 $\Delta_{u}$ 对应
$u\in{\mathcal{T}}$ 中枢纽集 $D_u^{pvt}$ ：对 $D_u$ ，执行 $f_u:=2 \cdot 2^{k^{\text{level}(u)}}-$ 平衡切割 $\left(D_1, \ldots, D_{f_u}, e_1^*, \ldots, e_{f_u-1}^*\right)$

对于 $u$ 本身： $D_u^{pvt}:=\left\{e_1^*, \ldots, e_{f_u-1}^*\right\}$
生成 $u$ 的(多)子节点 ${}v\to{}\begin{cases}D_1, \ldots, D_{f_u}皆空\to{}u为叶结点(v不存在)\\\\否则\to{}为每个非空D_i创建子节点\to{}D_v^{act}:=D_i\end{cases}$

3️⃣定义树结点 $u$ 的次级结构：考虑 $\text{input}\xrightarrow{T_u}\text{output}$

$\text{input}$ ：所在结点 $u + k$ 个关键词 $+(\lambda\text{+1})\text{-}$ 矩形 $q$
且 $q$ 在 $x$ 的投影为 $(-\infty, \infty)$

$\text{output}$ ： $u$ 活动集中的部分对象 $e$ ，满足 $e$ 被矩形 $q$ 覆盖 $+$ $e .$ Doc包含所有关键词

4.2. 查询算法

1️⃣一些记号

$\sigma(u)$ 为覆盖 $D_u^{act}$ 中所有点的 $x$ 坐标的最紧密区间
$q [i]$ 为 $q$ 在 $\in[1, \lambda+1]$ 上的投影区间， $q [1]$ 是 $x$ 维的区间

2️⃣查询操作：输入 $(\lambda+1)\text{-}$ 矩形 $q$ ，关键词 $\mathrm{w}_1, \ldots, \mathrm{w}_k$

访问满足以下条件的结点 $u\in{}\mathcal{T}$ ，并将被访问到的结点剥离出为 $\mathcal{T}_{\text {qry}}$
$\sigma(u) \cap q[1] \neq \emptyset$
$u$ 的所有祖先 $v$ 的 $\sigma(v)$ ，都没完全包含在 $q [1]$ 中

将 $\mathcal{T}_{\text {qry}}$ 中的点分类
类型 $1$ (图中黑点)： $\sigma{(u)}\subseteq{}q[1]$
类型 $2$ (图中白点)：其它结点，每层最多只有两个白点

报告对象
对类型 $1$ 的点：执行 $T_u$ 以报告对象
对类型 $2$ 的点：检查并报告枢纽集中合要求的对象，时间开销 $O\left(\left|D_u^{pvt}\right|\right)=O\left(f_u\right)$

4.3. 复杂度分析

1️⃣空间复杂度分析

$\mathcal{T}$ 每层结点的辅助结构总占用空间 $O\left(N \cdot(\log \log N)^{\lambda-2}\right)$
由于 $\mathcal{T}$ 有 $O(\log \log N)$ 层故总空间为 $O\left(N \cdot(\log \log N)^{\lambda-1}\right)$

2️⃣时间复杂度分析

类型 $1$ 结点成本： $O\left(N^{1-\frac{1}{k}}\right)$
类型 $2$ 结点成本： $O\left(N^{1-\frac{1}{k}}\right)$

索引	维度限制	索引空间	查询时间
$\text{ORP-KW}$ (索引 $1$ )	$d=\lambda{}\geq{}2$	$O\left(N \cdot(\log \log N)^{\lambda-2}\right)$	$\left(N^{1-\cfrac{1}{k}}\cdot\left(1+\text{OUT}^{\cfrac{1}{k}}\right)\right)$
$\text{ORP-KW}$ (索引 $2$ )	$d=\lambda{}+1$	$O\left(N \cdot(\log \log N)^{\lambda-1}\right)$	$\left(N^{1-\cfrac{1}{k}}\cdot\left(1+\text{OUT}^{\cfrac{1}{k}}\right)\right)$