文献分享: DiskANN查询算法的复杂度下界-CSDN博客

本文链接：https://blog.csdn.net/qq_64091900/article/details/141144031

文章目录

0. 写在前面
1. $\text{DiskANN}$ 回顾
2. 对于慢处理 $\text{DiskANN}$ 的理论分析
3. 对于快处理 $\text{DiskANN}$ (及其他算法)的实验
X. 关于定理 $\textbf{3.4}$ 的一些思考

0. 写在前面

0.1. 预备知识

1️⃣最邻近搜索：给定数据库 $U$ 中的 $n$ 个对象(子集)，以及输入的查询点 $q$

精确定义( $\text{NN}$ )：返回 $e^*\in{S}$ 满足 $\text{dist}(q, e^*) = \min\limits_{e \in S} \text{dist}(q, e)$
近似定义( $\text{c-ANN}$ )：返回 $e\in{S}$ 满足 $\text{dist}(q, e)\leq{}c*\text{dist}(q, e^*)$

2️⃣倍增维度

直径：点集中距离最远的两点的距离，即 $\text{diam}(X)=\displaystyle\sup_{e_1, e_2 \in X} \text{dist}\left(e_1, e_2\right)$
$2^{\lambda}\text{-}$ 分割： $X$ 可被分为 $m$ 个子集 $X_1X_2...X_m$ ，且满足 $\begin{cases}m\leq{}2^{\lambda}\\\\\text{diam}(X_i)\leq{}\cfrac{1}{2}\text{diam}(X)\end{cases}$
倍增维度：就是 $\lambda_{min}$ ，即用最少 $2^{\lambda_{min}}$ 个半径不超过 $\cfrac{1}{2}r_{_X}$ 的球体填满 $X$

3️⃣球体的一个性质：任何球体 $B (e, r)$ 都可被至多 $O\left(k^d\right)$ 个半径为 $\cfrac{r}{c}$ 的球体覆盖

0.2. 一些记号

符号含义
$(X, D)$ 基础度量空间， $X$ 为点集 $D$ 为距离类型
$D (u, v)$ $\{x_1, \ldots, x_n\}$ 中的俩点 $x_u$ 和 $x_v$ 的距离
$B (p, r)$ 以 $\in X$ 为球心 $r$ 为半径的球
$\Delta$ 点集中最远俩点 / 最近俩点的比值
$d$ 倍增维度

0.3. 本文的研究概述

1️⃣背景：很多 $\text{c-ANN}$ 算法比如 $\text{HNSW/NSG/DiskANN}$ 在基准数据集上性能不错，但其下界不可知

2️⃣研究成果

最坏情况上界：对于 $\text{DiskANN}$ 慢处理版，可在 $O\left(\log _\alpha \cfrac{\Delta}{(\alpha-1) \epsilon}\right)$ 步返回 $\left(\cfrac{\alpha+1}{\alpha-1}+\epsilon\right)\text{-ANN}$
但值得注意， $\text{DiskANN}$ 慢处理的图构建复杂度高达 $O(n^3)$

最坏情况下界：对于 $\text{DiskANN}$ 块预处理版/ $\text{HNSW}$ / $\text{NSG}$ ，算法找到 $5$ 个最邻近前至少要走 $0.1 n$ 步

3️⃣未来的研究方向：有没有一种算法，预处理和查询都低于线性复杂度 $?$

符号	含义
$(X, D)$	基础度量空间， $X$ 为点集 $D$ 为距离类型
$D (u, v)$	$\{x_1, \ldots, x_n\}$ 中的俩点 $x_u$ 和 $x_v$ 的距离
$B (p, r)$	以 $\in X$ 为球心 $r$ 为半径的球
$\Delta$	点集中最远俩点 / 最近俩点的比值
$d$	倍增维度

1. $\text{DiskANN}$ 回顾

1.0. Intro

🤔是个啥：基于邻近图的贪婪搜索的，一种解决 $\text{c-ANN}$ 的算法

🙉基本思路

在数据库中的点集 $P$ 上创建有向图 $G = (V, E)$ ，其中 $V$ 与 $P$ 关联
给定带查询点 $q$ ，从起始点 $s\in{}V$ 开始对图 $G$ 执行搜索
预期搜索返回 $q$ 的最邻近点

1.1. $\text{DiskANN}$ 的基本操作

1️⃣连接操作 $\text{RobustPruning}(v, U, \alpha, R)$ ，用于图的构建过程

参数含义
符号含义
$v$ 当前处理的图中的顶点
$U$ $v$ 的备选邻居(预计最终与 $v$ 连接的点)
$\alpha$ 修剪参数，一定大于 $1$
$R$ 结点出度的限制，即 $v$ 至多有几个邻居

连接过程
排序：将 $U$ 所有元素按离 $v$ 的距离从近到远排序
遍历：开始遍历并处理每个 $u\in{}U$
修剪：对 $u\in{}U$ ，删除满足 $u^{\prime}) \cdot \alpha < D(v, u^{\prime})$ 的点 $u^{\prime}$ ，余下的点总体离 $v$ 更近

连接：让 $v$ 与所有 $U$ 中所有剩下点连接

2️⃣搜索操作 $\text{GreedySearch}(s, q, L)$

参数含义
符号含义
$s$ 图 $G$ 中，搜索的起始点
$q$ 给定带查询点 $q$
$L$ 维护队列的最大长度，这也是搜索算法扫描结点数量的下界

辅助数据结构：当前队列 $A$ ，已访问点集 $U$
搜索过程
初始化： $A=\{s\}$ ， $U=\varnothing$
扫描与剪裁：循环执行访问 $+$ 剪裁，直到 $A$ 中所有点都被访问
访问：选取 $A$ 中距离 $q$ 最近的未访问点 $v\to\begin{cases}A=A\cup{}N_{out}(v)\,,将邻居全部加入A\\\\U=U\cup{}v\,,表示v已经被访问\end{cases}$
裁剪：当 $A$ 队列长度超出 $L$ 后，保留其中 $L$ 个与 $q$ 最近的点

排序输出：输出 $A$ 排序后的前 $k$ 个点

1.2. $\text{DiskANN}$ 的构建操作

1️⃣慢预处理：对所有 $v\in{}V$ 执行 $\text{RobustPruning}(v, V, \alpha, |V|)$

2️⃣快预处理操作

初始化：对所有结点 $V$ 执行 $R$ 重构建，即每个点随意连接 $R$ 个顶点
第一遍遍历
起始：任选一 $s$ 开始，随机访问其后继 $v$
搜索：对 $v$ 执行 $U=\text{GreedySearch}(s, v, L)$ 得到 $U$ (可能与 $v$ 最邻近的点集)
修剪：对得到的 $U$ 执行 $\text{RobustPruning}(v, U, \alpha, n)$ 修剪其中离 $v$ 较远的点
连接：将 $v$ 与修剪后 $U$ 的所有结点相连
再修剪：如果 $u\in{}U$ 度数超过 $R$ ，则执行 $\text{RobustPruning}(u, N_{\text{out}}(u), \alpha, R)$ 修剪 $u$ 邻居

第二遍遍历：对第一次遍历所得结果，同样的操作在遍历一次

符号	含义
$v$	当前处理的图中的顶点
$U$	$v$ 的备选邻居(预计最终与 $v$ 连接的点)
$\alpha$	修剪参数，一定大于 $1$
$R$	结点出度的限制，即 $v$ 至多有几个邻居

符号	含义
$s$	图 $G$ 中，搜索的起始点
$q$	给定带查询点 $q$
$L$	维护队列的最大长度，这也是搜索算法扫描结点数量的下界

2. 对于慢处理 $\text{DiskANN}$ 的理论分析

2.1. 预处理分析

1️⃣ $\alpha\text{-}$ 捷径可达性

顶点 $\alpha\text{-}$ 捷径可达 $\xLeftrightarrow{}$ 满足二者之一 $\forall{}q\in{}V\to{}\begin{cases}直连\text{: }(p, q) \in E\\\\捷径连接\text{: }\exist{}p^{\prime}满足\begin{cases}(p, p') \in E\\\\D(p', q) \leq \cfrac{D(p, q)}{\alpha}\end{cases}\end{cases}$
$\forall{}p\in{}G$ 都具有 $\alpha\text{-}$ 捷径可达性，则称 $G$ 具有 $\alpha\text{-}$ 捷径可达性

2️⃣预处理分析

时间复杂度： $O\left(n^3\right)$
捷径可达性：慢处理构建的图具有捷径可达性
稀疏性：
记 $p$ 执行 $\text{RobustPruning}(p, V, \alpha, n)$ 后 $p$ 所连接点数量为 $∣ U (p) ∣$ 则 $|U(p)|\leqslant O\left((4 \alpha)^d \log \Delta\right)$
证明思路大致为：引入环形区域 $\to$ 覆盖 $\to$ 剩余点范围受限于倍增维度

在后续实验中，可以看出慢预处理的 $\text{DiskANN}$ 相当稀疏

2.2. 查询分析

1️⃣结论：从 $G$ 中任一点 $s$ 开始执行 $\text{GreedySearch}(s, q, 1)$

能在 $O\left(\log _\alpha \cfrac{\Delta}{(\alpha-1) \epsilon}\right)$ 步内返回 $\left(\cfrac{\alpha+1}{\alpha-1}+\epsilon\right)\text{-}$ 近似邻居
$\text{P.s. }$ 每步最多检查 $|U|\leqslant O\left((4 \alpha)^d \log \Delta\right)$ 个邻居，即每步最多 $O\left((4 \alpha)^d \log \Delta\right)$ 时间

2️⃣证明思路大致为

通过三角不等式和 $\alpha\text{-}$ 捷径可达性，得出每一步的距离 $d_i$ 的上界
分析三种情况的查询步数
$D (s, q)$ $D (a, q)$ 分析思路
远远 $+$ 近通过初步不等式得出 $d_i$ 与 $D (a, q)$ 关系 $\to$ 算法在 $\log _\alpha \cfrac{2}{\epsilon}$ 步内结束
近远通过上下界 $\to{}$ 算法在 $O\left(\log _\alpha \frac{\Delta}{(\alpha-1) \epsilon}\right)$ 步内结束
近近通过不等式结合 $D_{\min}$ 和 $D_{\max}$ $\to{}$ 算法在 $O\left(\log _\alpha \Delta\right)$ 步内结束

注意 $D (a, q)$ 中 $a$ 表示 $q$ 的最邻近点

3️⃣后续实验中，慢处理的 $\text{DiskANN}$ 在难例上，甚至只需要两步就找到最邻近

2.3. 对复杂度的紧致性分析

1️⃣收敛率的严格下界：在 $O\left(\log _\alpha \cfrac{\Delta}{(\alpha-1) \epsilon}\right)$ 步中不可将 $\log \Delta$ 换为 $\log n$ ，证明思路如下

构造一个一维度量空间满足 $∣ P ∣ = n = 2 k - 1$ 且 $\Delta=O(\alpha^n)$
证明：给定查询点 $q$ 并执行 $\text{GreedySearch}$ ，找到 $q$ 的 $O(1)\text{-ANN}$ 至少要扫描 $\Omega(\log \Delta)$ 或 $O (n)$ 个点

2️⃣紧密的近似下限： $\cfrac{\alpha+1}{\alpha-1}\text{-ANN}$ 的比例具有紧，证明思路如下

构建一个简单实例

证明在上述实例中，执行 $\text{DiskANN}$ 慢预处理版至少要扫描 $n$ 个点，才能找到一个 $\cfrac{\alpha+1}{\alpha-1}\text{-ANN}$
思路：从 $s\in{}P$ 开始扫描 $\to{}n$ 步贪婪搜索后出不了 $P$ $\to$ 无法接近最邻近 $a\to$ 至少扫描 $n$ 点

$D (s, q)$	$D (a, q)$	分析思路
远	远 $+$ 近	通过初步不等式得出 $d_i$ 与 $D (a, q)$ 关系 $\to$ 算法在 $\log _\alpha \cfrac{2}{\epsilon}$ 步内结束
近	远	通过上下界 $\to{}$ 算法在 $O\left(\log _\alpha \frac{\Delta}{(\alpha-1) \epsilon}\right)$ 步内结束
近	近	通过不等式结合 $D_{\min}$ 和 $D_{\max}$ $\to{}$ 算法在 $O\left(\log _\alpha \Delta\right)$ 步内结束

3. 对于快处理 $\text{DiskANN}$ (及其他算法)的实验

3.1. 快处理 $\text{DiskANN}$ 的实验

1️⃣构建的难实例

2️⃣实验结果：执行查询试图输出 $5$ 个最邻近

召回率(结果中实际最邻近点的比率)在 $\approx 10 \%$ 处发生剧变
至少需要扫描 $10\%$ 的点才能使召回率非 $0$ ，即查询的时间复杂度为 $O (0.1 n)$

3.2. $\text{NSG/HNSW}$ 算法的实验

1️⃣构建的难例：

2️⃣同样也是，至少要扫描 $10\%$ 的点才能使召回率达标

3.3. 交叉对比

1️⃣为三个算法构建同样的难例

2️⃣结果：依然是需要扫描至少 $0.1 n$ 个点

3.4. 其它算法上的实验

1️⃣构建难例，给定 $L = 0.1 n$ ，运行结果(召回率)如下表(截取)

DiskANN NSG HNSW NGT SSG KGraph
$0.0$ $0.27$ $0.1$ $0.05$ $0.16$ $0.42$

2️⃣分析：说明 $0.1 n$ 很可能就是这些算法的下界

DiskANN	NSG	HNSW	NGT	SSG	KGraph
$0.0$	$0.27$	$0.1$	$0.05$	$0.16$	$0.42$

X. 关于定理 $\textbf{3.4}$ 的一些思考

X.1. 预备知识回顾

1️⃣ $\alpha{\text{-}}$ 可捷达性

点 $pq$ 的 $\alpha{\text{-}}$ 可捷达性： $pq$ 要么直连，要么 $pp^{\prime}$ 直连但 $\leq \cfrac{1}{\alpha}*D(p, q)$

图的 $\alpha{\text{-}}$ 可捷达性：要求图中任意两点都是 $\alpha{\text{-}}$ 可捷达的

2️⃣ $\text{DiskANN}$ 的 $\text{GreedySearch}(s, q, L)$

参数含义

符号： $s$ (搜索起点)， $q$ (待查询点)， $L$ (队列 $A$ 最大长度)

$\text{Ps. }$ 当 $L = 1$ 时意味着贪心搜索不会回溯，即每走到下一个结点后，离最邻近必定更近

辅助数据结构： $A$ (当前队列)， $U$ (已访问点的集合)

算法过程

3️⃣定理内容

前提
图： $G = (V, E)$ 时经过慢预处理构建的 $\alpha\text{-}$ 捷径可达图
搜索：令 $L = 1$ ，从任意 $\in V$ 开始执行 $\text{GreedySearch}(s, q, L)$

结论：算法在 $O\left(\log _\alpha \cfrac{\Delta}{(\alpha-1) \epsilon}\right)$ 步内找到 $\left(\cfrac{\alpha+1}{\alpha-1}+\epsilon\right)$ 的近似最近邻

X.2. 证明 $\textbf{Pipeline}$

1️⃣有关符号

结点

符号含义
$q$ 给定的待查询点
$a$ $q$ 的最邻近
$v_i$ 图 $G = (V, E)$ 中第 $i$ 个被扫描到的点， $i$ 就是算法的步数

距离： $d_i=D(v_i,q)$

近似比： $c_i=\cfrac{d_i}{D(a, q)}$

纵横比： $\Delta=\cfrac{D_{\max }}{D_{\min }}$ ， $D_{\text{max}}$ 为点集 $V$ 中相聚最远两点的距离

2️⃣初步分析：关于 $d_i$ 的递归式

递归式通项的推导

$\textcolor{green}{D(a,v^{\prime})\leq{}\cfrac{d_i+D(a, q)}{\alpha}}\Leftarrow{} \begin{cases} D(a,v_i)\leq{}d_i+D(a,q)(三角定理)\\\\ D(a,v^{\prime})\leq{}\cfrac{1}{\alpha}*D(a, v_i)(\alpha{}\text{-}可捷达性) \end{cases}$
$\textcolor{orange}{D(q,v^{\prime})\leq{}\cfrac{d_i+D(a, q)}{\alpha}+D(a,q)}\Leftarrow{} \begin{cases} \textcolor{green}{D(a,v^{\prime})\leq{}\cfrac{d_i+D(a, q)}{\alpha}}\\\\ D(q,v^{\prime})\leq{}D(a,v^{\prime})+D(a,q)(三角定理) \end{cases}$
$\textcolor{red}{d_{i+1}\leq{}\cfrac{d_i+D(a, q)}{\alpha}+D(a,q) }\Leftarrow{} \begin{cases} \textcolor{orange}{D(q,v^{\prime})\leq{}\cfrac{d_i+D(a, q)}{\alpha}+D(a,q)}\\\\ d_{i+1}\leq{}D(q,v^{\prime})(必定从v_i邻居(含v^{\prime})选一离q更近的v_{i+1}) \end{cases}$

归纳法解递归

初始条件： $d_0 = D(s, q)$
归纳假设： $d_i \leq \cfrac{D(s, q)}{\alpha^i} + \cfrac{\alpha+1} {\alpha-1} D(a, q)$
归纳推到： $d_{i+1} \leq \cfrac{D(s, q)}{\alpha^{i+1}} + \cfrac{\alpha+1}{\alpha-1} D(a, q)\Leftarrow{}\begin{cases}存在d_{i+1} \leq \cfrac{d_i + D(a, q)}{\alpha} + D(a, q)\\\\带入d_i \leq \cfrac{D(s, q)}{\alpha^i} + \cfrac{\alpha+1} {\alpha-1} D(a, q)\end{cases}$

递归解： $d_i \leq \cfrac{D(s, q)}{\alpha^i} + \cfrac{\alpha+1}{\alpha-1} D(a, q)$

3️⃣三种情况

情况 $D (s, q)$ $D (a, q)$
情况一 $D_{\max },\infin{})$ ${},+\infin{}]$
情况二 $0,2 D_{\max }]$ $\left[\cfrac{\alpha-1}{4(\alpha+1)} D_{\min },+\infin{}\right)$
情况三 $0,2 D_{\max }]$ $\left(0,\cfrac{\alpha-1}{4(\alpha+1)} D_{\min }\right)$

情况一：当起始点离最邻近很远时，同时推导出邻近度 $+$ 步数

$\textcolor{green}{D(a,q)>D(s,q)-D_{\text{max}}} \Leftarrow{} \begin{cases} D(a,q)>D(s,q)-D(a,s)(三角定理)\\\\ D(a,s)<D_{\text{max}}(D_{\text{max}}的定义) \end{cases}$

$\textcolor{purple}{c_i\leqslant \cfrac{D(s, q)}{\alpha^i D(a, q)}+\cfrac{\alpha+1}{\alpha-1} }\Leftarrow{} \begin{cases} d_i \leq \cfrac{D(s, q)}{\alpha^i} + \cfrac{\alpha+1}{\alpha-1} D(a, q)(递归解)\\\\ c_i=\cfrac{d_i}{D(a, q)}(近似比定义) \end{cases}$

$\textcolor{orange}{D(a,q)>\cfrac{D(s,q)}{2}} \Leftarrow{} {D(a,q)>D(s,q)-\cfrac{D(s,q)}{2}} \Leftarrow{} \begin{cases} \textcolor{green}{D(a,q)>D(s,q)-D_{\text{max}}}\\\\ D(s,q)>2D_{\text{max}}(前提) \end{cases}$

$\textcolor{red}{\begin{cases} c_i \leqslant \cfrac{\alpha+1}{\alpha-1}+\epsilon\\\\ i\geq{}\log_{\alpha}\left(\cfrac{2}{\epsilon}\right) \end{cases}} \xLeftarrow[]{\large\frac{2}{\alpha{}^{i}}\leq{}\epsilon\\} {c_i\leqslant \cfrac{2}{\alpha^i }+\cfrac{\alpha+1}{\alpha-1}} \Leftarrow{} \begin{cases} \textcolor{purple}{c_i\leqslant \cfrac{D(s, q)}{\alpha^i D(a, q)}+\cfrac{\alpha+1}{\alpha-1} }\\\\ \textcolor{orange}{{D(s,q)}<{2}*D(a,q)} \end{cases}$

情况二：起始点离最邻近适中，但最邻近离查询点又很远，假设邻近度→推导出步数

假设算法达到了 $\textcolor{green}{c_i \leq \cfrac{\alpha+1}{\alpha-1} + \epsilon}$ 邻近度
$\textcolor{purple}{\cfrac{D(s, q)}{\alpha^i}<\epsilon D(a, q)} \Leftarrow{} \begin{cases} c_i\leqslant \cfrac{D(s, q)}{\alpha^i D(a, q)}+\cfrac{\alpha+1}{\alpha-1}(情况1中已证明)\\\\ \textcolor{green}{c_i \leq \cfrac{\alpha+1}{\alpha-1} + \epsilon } \end{cases}$
$\textcolor{orange}{\cfrac{2 D_{\max}}{\alpha^i} \leq \epsilon \times \cfrac{\alpha-1}{4(\alpha+1)} D_{\min}} \xLeftarrow[用D(a,q)下界将其替代]{用D(s,q)上限将其替代} \begin{cases} D(s, q) \leq 2 D_{\max}\\\\ D(a, q) \geq \cfrac{\alpha-1}{4(\alpha+1)} D_{\min}\\\\ \textcolor{purple}{\cfrac{D(s, q)}{\alpha^i}<\epsilon D(a, q)} \end{cases}$
$O\left(\log_\alpha \cfrac{\Delta}{(\alpha-1) \epsilon}\right)\xLeftarrow{渐进上界} \textcolor{red}{i \geq \log_\alpha \cfrac{8(\alpha+1) \Delta}{(\alpha-1) \epsilon}} \xLeftarrow{} \begin{cases} \textcolor{orange}{\cfrac{2 D_{\max}}{\alpha^i} \leq \epsilon \times \cfrac{\alpha-1}{4(\alpha+1)} D_{\min}}\\\\ \Delta=\cfrac{D_{\max }}{D_{\min }} (定义) \end{cases}$

情况三：起始点离最邻近适中，最邻近离查询点很近，**推导出找到确切最邻近的步数上界 **

证明： $d_i\geq{}\cfrac{1}{2}{D_{\text{min}}}$

$\textcolor{green}{D(a,q)\leq{}\cfrac{1}{2}D(v_i,a)} \Leftarrow{} \begin{cases}{D(a,q)<\cfrac{1}{4}D_{\text{min}}}\xLeftarrow{\frac{\alpha{}-1}{4(\alpha{}+1)}{<0.25}} D(a,q)<{}\cfrac{(\alpha-1)D_{\min }}{4(\alpha+1)} (条件)\\\\ D_{\text{min}}<D(v_i,a)(D_{\text{min}}的定义) \end{cases}$
$\textcolor{orange}{d_i\geq{}\cfrac{1}{2}D(v_i,a)} \Leftarrow{} \begin{cases} \textcolor{green}{\cfrac{1}{2}D(v_i,a)\geq{}D(a,q)}\\\\ d_i\geq{}D(v_i,a)-D(a,q) (三角定理) \end{cases}$
$\textcolor{red}{d_i\geq{}\cfrac{1}{2}{D_{\text{min}}}} \Leftarrow{} \begin{cases} \textcolor{orange}{d_i\geq{}\cfrac{1}{2}D(v_i,a)}\\\\ D(v_i,a)>D_{\text{min}}(D_{\text{min}}的定义) \end{cases}$

证明： $i\leq\log_{\alpha}8\Delta$

$\textcolor{green}{\cfrac{1}{2}{D_{\text{min}}}\leq{}\cfrac{D(s, q)}{\alpha^i} + \cfrac{\alpha+1}{\alpha-1} D(a, q)} \Leftarrow{} \begin{cases} d_i \leq \cfrac{D(s, q)}{\alpha^i} + \cfrac{\alpha+1}{\alpha-1} D(a, q)(递归解)\\\\ d_i\geq{}\cfrac{1}{2}{D_{\text{min}}}(上述已证明) \end{cases}$
$\textcolor{orange}{\alpha^i \leqslant \cfrac{8 D_{\max }}{D_{\min }}}\Leftarrow{}\cfrac{D_{\min }}{2} \leqslant \cfrac{2 D_{\max }}{\alpha^i}+\cfrac{D_{\min }}{4} \Leftarrow{} \begin{cases} \textcolor{green}{\cfrac{1}{2}{D_{\text{min}}}\leq{}\cfrac{D(s, q)}{\alpha^i} + \cfrac{\alpha+1}{\alpha-1} D(a, q)}\\\\ D(a,q)<{}\cfrac{\alpha-1}{4(\alpha+1)} D_{\min }(条件)\\\\ D(s,q)\leq{}2D_{\text{max}}(条件) \end{cases}$
$O\left(\log_\alpha \Delta\right) \xLeftarrow{渐进上界}\textcolor{red}{i\leq\log_{\alpha}8\Delta} \Leftarrow{} \begin{cases} \textcolor{orange}{\alpha^i \leqslant \cfrac{8 D_{\max }}{D_{\min }}}\\\\ \Delta=\cfrac{D_{\max }}{D_{\min }} (定义) \end{cases}$

X.3. 对证明过程的思考

1️⃣证明的关键何在

关键点解释
三角不等式是推导过程的基石，几乎出现在所有推导的过程
$d_i$ 递归式推导过程中最为核心的一步，因为其解释了算法在每一步的收敛速度
三种情况本质上是算法在不同距离下有三种收敛方式，不同收敛方式受(局部)倍增维度控制?

2️⃣三种情况的一些分析：~~本想尝试解答三种情况划分界限的内在因果，但最后也没有分析出什么🤣~~

情况 $D (s, q)$ $D (a, q)$
情况一 $D_{\max },\infin{})$ ${},+\infin{}]$
情况二 $0,2 D_{\max }]$ $\left[\cfrac{\alpha-1}{4(\alpha+1)} D_{\min },+\infin{}\right)$
情况三 $0,2 D_{\max }]$ $\left(0,\cfrac{\alpha-1}{4(\alpha+1)} D_{\min }\right)$

$D(a,q)\leq{}3D_{\text{max}} \Leftarrow{} \begin{cases} D(a,q)\leq{}D(s,q)+D_{\text{max}} \Leftarrow{} \begin{cases} D(a,q)\leq{}D(s,q)+D(a,s) (三角)\\\\ D(a,s)\leq{}D_{\text{max}}(D_{\text{max}}定义) \end{cases}\\\\ D(s,q)\leq{}2 D_{\max }(情况2/3条件) \end{cases}$
$D(a,q)\geq{}D_{\text{max}} \Leftarrow{} \begin{cases} D(a,q)\geq{}D(s,q)-D_{\text{max}} \Leftarrow{} \begin{cases} D(a,q)\geq{}D(s,q)-D(a,s) (三角)\\\\ D(a,s)\leq{}D_{\text{max}}(D_{\text{max}}定义) \end{cases}\\\\ D(s,q)\geq{}2 D_{\max }(情况1条件) \end{cases}$

符号	含义
$q$	给定的待查询点
$a$	$q$ 的最邻近
$v_i$	图 $G = (V, E)$ 中第 $i$ 个被扫描到的点， $i$ 就是算法的步数

情况	$D (s, q)$	$D (a, q)$
情况一	$D_{\max },\infin{})$	${},+\infin{}]$
情况二	$0,2 D_{\max }]$	$\left[\cfrac{\alpha-1}{4(\alpha+1)} D_{\min },+\infin{}\right)$
情况三	$0,2 D_{\max }]$	$\left(0,\cfrac{\alpha-1}{4(\alpha+1)} D_{\min }\right)$

关键点	解释
三角不等式	是推导过程的基石，几乎出现在所有推导的过程
$d_i$ 递归式	推导过程中最为核心的一步，因为其解释了算法在每一步的收敛速度
三种情况	本质上是算法在不同距离下有三种收敛方式，不同收敛方式受(局部)倍增维度控制?

文献分享: DiskANN查询算法的复杂度下界

文章目录

0. 写在前面

0.1. 预备知识

0.2. 一些记号

0.3. 本文的研究概述

1. DiskANN \text{DiskANN} DiskANN回顾

1.0. Intro

1.1. DiskANN \text{DiskANN} DiskANN的基本操作

1.2. DiskANN \text{DiskANN} DiskANN的构建操作

2. 对于慢处理 DiskANN \text{DiskANN} DiskANN的理论分析

2.1. 预处理分析

2.2. 查询分析

2.3. 对复杂度的紧致性分析

3. 对于快处理 DiskANN \text{DiskANN} DiskANN(及其他算法)的实验

3.1. 快处理 DiskANN \text{DiskANN} DiskANN的实验

3.2. NSG/HNSW \text{NSG/HNSW} NSG/HNSW算法的实验

3.3. 交叉对比

3.4. 其它算法上的实验

X. 关于定理 3.4 \textbf{3.4} 3.4的一些思考

X.1. 预备知识回顾

X.2. 证明 Pipeline \textbf{Pipeline} Pipeline

X.3. 对证明过程的思考

1. $\text{DiskANN}$ 回顾

1.1. $\text{DiskANN}$ 的基本操作

1.2. $\text{DiskANN}$ 的构建操作

2. 对于慢处理 $\text{DiskANN}$ 的理论分析

3. 对于快处理 $\text{DiskANN}$ (及其他算法)的实验

3.1. 快处理 $\text{DiskANN}$ 的实验

3.2. $\text{NSG/HNSW}$ 算法的实验

X. 关于定理 $\textbf{3.4}$ 的一些思考

X.2. 证明 $\textbf{Pipeline}$