【亚线性时间算法】第一节——Overview

Ingsuifon

已于 2023-02-28 18:11:38 修改

阅读量429

点赞数 1

分类专栏：大数据文章标签：算法大数据

于 2023-02-28 15:19:28 首次发布

本文链接：https://blog.csdn.net/Ingsuifon/article/details/129260616

版权

大数据专栏收录该内容

3 篇文章 0 订阅

订阅专栏

本文介绍了在数据量过大无法直接查看时，如何设计和使用亚线性时间算法来处理数据。文章通过两个例子展示了这种方法：一是估算图的直径，提出一种基于行扫描的算法，能在输入大小的平方根时间内给出直径的二乘近似；二是估计图中连通分量的数量，通过采样和BFS来实现εn-加性近似，运行时间为O(d/ε^4)。这些算法的关键在于利用数据的特性来减少处理时间。

摘要由CSDN通过智能技术生成

1. 引言

输入的数据量太大而无法查看时的处理方法

忽略问题
开发处理此类数据的算法

我们希望在不查看大部分数据的情况下能够做什么

无法回答“for all”或“there exists”等确切问题：
- 是否所有的个体都以至多 6 度的分离度相连？
- 地球上究竟有多少人是左撇子？
也许可以回答：
- 是否有一大群人以至多 6 度的分离度相连？
- 图的平均成对距离大约为 6 吗？
- 地球上大约有多少人是左撇子？
必须妥协：
- 对于最关注的问题：算法必须给出近似答案

本专栏将重点介绍限制在亚线性时间内运行的算法设计，因此只能查看非常小的一部分数据。亚线性时间算法的研究已广泛应用在各种领域，包括代数、图论、几何、字符串和集合运算、优化和概率论。本专栏将介绍许多已应用于分析此类算法的各种技术。主题包括：估计图的参数和属性（最小顶点覆盖、MST、平均度、最大匹配、连通分量、直径、聚类性、二分性）；估计分布的参数和属性（熵，支持大小，独立性，均匀性，独立性，单调性，它是自变量的总和吗？）；估计函数的属性（线性和低次多项式测试、单调性、线性阈值函数、相关变量的数量）。

2. 点集的近似直径

假设我们有 $m$ 个点，编号从 $1$ 到 $m$ ，由 $m \times m$ 距离矩阵 $D$ 描述，这样每个条目 $D_{i,j}$ 是从 $i$ 到 $j$ 的距离. 我们得到以下属性：

对称性： $D_{i,j} = D_{j,i}$ for all $i, j ∈ \{1, . . . , m\}$ .
三角不等式： $D_{i,j} ≤ D_{i,k} + D_{k,j}$ for all $i, j, k ∈ \{1, . . . , m\}$ .

注意，输入大小 $n = Θ(m^2)$ ，因为我们给定了 $m^2$ 个距离.
我们将直径定义为矩阵 $D$ 的最大元素 $D_{i,j}$ . 我们希望输出 $k, l$ 使得 $D_{k,l} ≥ D_{i,j}/2$ ，我们称其为二乘近似值.

2.1 算法

在这里，我们提出了一个基本算法。该算法将是我们在本专栏中介绍的唯一确定性算法。

任意选择 $k∈ \{1, . . . , m\}$
查看矩阵 $D$ 的第 $k$ 行，选择 $l$ 以最大化 $D_{k,l}$
输出 $k,l,D_{k,l}$

运行时间 计算量最大的是第二步，它需要查看 $m$ 个条目. 这需要 $O (m)$ 时间，意味着总运行时间为 $O(m) = O(n^{1/2})$ ，即输入大小的平方根.

正确性 假设对于某些（可能是其他）节点 $i, j$ ，实际直径是 $D_{i,j}$ . 然后：
$\begin{aligned} D_{i,j} & ≤ D_{i,k} + D_{k,j} (三角不等式)\\ & ≤ D_{k,i} + D_{k,j} (对称性)\\ & ≤ 2D_{k,ℓ} (最大值)\\ \end{aligned}$
所以 $D_{k,l}$ 至少是直径的一半.
请注意，我们使用的度量空间很重要——我们需要使用三角形不等式和对称性来表明我们的输出确实是一个二乘近似值。稍后我们将看到更多示例，其中我们利用输入的特定属性来获得比朴素方法更好的算法结果。

3. 图中连通分量的数量

假设我们有一个图 $G$ ，其中 $∣ V ∣ = n$ , $∣ E ∣ = m$ ，最大度数 $d$ ，以及另一个参数 $ε$ . 假设 $G$ 以邻接表给出.
我们希望输出 $G$ 的连通分量数量 $c$ 的 $ε n$ -加性近似值. 换句话说，我们希望输出 $y$ 使得 $∣ y - c ∣ \leq ε n$ .

3.1 符号定义

我们将为这个问题定义更多的符号，以给出 $G$ 的连通分量数的替代表示. 对于所有 $v \in V$ ，将 $n_v$ 定义为 $v$ 所属分量的节点数. 观察到对于所有连通分量 $A \subseteq V$ ， $\sum\limits_{u∈A}\frac{1}{n_u}=\sum\limits_{u∈A}\frac{1}{|A|}=1$ .

这意味着，对所有连通分量 $A \subseteq V$ 求和， $\sum\limits_{u∈V}\frac{1}{n_u}=\sum\limits_{A⊆V}\sum\limits_{u∈A}\frac{1}{n_u}=\sum\limits_{A⊆V}1=c$ . 因此，连通分量的数量 $c$ 恰好是 $\sum\limits_{u∈V}\frac{1}{n_u}$ .

乍一看，这似乎没有改进。我们好像需要花更多的时间来计算这个总和，因为 $n_u$ 很难计算，尤其是对于线性大小的分量.
我们现在将展示如何快速估计 $n_u$ ，然后使用采样界限估计连通分量的数量。直觉上，我们将为 $n_u$ 的估计设置一个独立于 $n$ 的“截止值”，这样如果我们发现某个分量的顶点太多，我们将返回该截止值.

3.2 子过程

这里，为了估计 $\frac{1}{n_u}$ ，我们定义 $\widehat{n_u}:=\min\{n_u, \frac{2}{ε}\}$ 和 $\widehat{c}:=\sum\limits_{u∈V}\frac{1}{\widehat{n_u}}$ .
首先，我们注意到以下几点：

引理 1 对于所有 $u$ ， $\left|\frac{1}{\widehat{n_u}}-\frac{1}{n_u}\right|≤\frac{ε}{2}$ . 因此， $|\widehat{c}-c|≤\frac{εn}{2}$ .
证明请注意， $n_u$ 始终为正，因此 $\frac{1}{n_u} > 0$ . 我们现在分类讨论：

若 $n_u<\frac{2}{ε}$ ，那么 $\widehat{n_u}=n_u$ ，因此 $\frac{1}{\widehat{n_u}}-\frac{1}{n_u}=0$ .
否则， $\widehat{n_u}=\frac{2}{ε}$ . 我们得到
$0<\frac{1}{n_u}≤\frac{1}{\widehat{n_u}}=\frac{ε}{2}.$ 由于两个量都在区间 $(0, ε /2]$ 内，因此它们的差的绝对值至多为 $\frac{ε}{2}-0=\frac{ε}{2}$ .

因此，在所有情况下， $|\frac{1}{\widehat{n_u}}-\frac{1}{n_u}|≤\frac{ε}{2}$ . 对所有 $u$ 求和并使用三角不等式，我们得到
$|\widehat{c}-c|=\left|\sum\limits_{u∈V}\frac{1}{\widehat{n_u}}-\frac{1}{n_u}\right|≤\sum\limits_{u∈V}\left|\frac{1}{\widehat{n_u}}-\frac{1}{n_u}\right|≤\sum\limits_{u∈V}\frac{ε}{2}=\frac{εn}{2}.$
现在，我们注意到计算 $\frac{1}{\widehat{n_u}}$ 耗时更少。计算 $\frac{1}{\widehat{n_u}}$ 的算法：

从 $u$ 开始执行 BFS，直到满足以下两个条件之一：
- 我们访问了 $\frac{2}{ε}$ 个不同的节点（即 $n_u ≥\frac{2}{ε}$ ），在这种情况下我们输出 $\frac{2}{ε}$ .
- 我们访问了 $u$ 的分量的所有 $n_u<\frac{2}{ε}$ 个顶点，在这种情况下我们输出 $n_u$ .

运行时间 请注意，BFS 每一步花费 $O (d)$ 时间，因为每个顶点的度数最多为 $d$ ，并且我们在 BFS 中访问 $O(\frac{1}{ε})$ 个顶点. 因此，我们的总运行时间为 $O(d\cdot\frac{1}{ε})$ . 请注意，我们在技术上不需要因子 $d$ （也就是说，我们可以用 $O(\frac{1}{ε})$ 代替），但我们保留它，因为我们稍后需要它（特别是对于其他图表示）.

3.3 算法

现在，我们如何估计 $\sum_u\frac{1}{\widehat{n_u}}$ ？算法如下：

$r←b/ε^3$ 对于某个常数 $b$
从 $V$ 中独立随机均匀地选择 $r$ 个节点 $U = \{u_1, . . . , u_r\}$
对于所有 $u_i ∈ U$ ，通过上面的算法计算 $\widehat{n_{u_i}}$
输出 $\widehat{c}=n\cdot\left(\frac{1}{r}\sum\limits_{u_i∈U}\frac{1}{\widehat{n_{u_i}}}\right)$

请注意，在最后一步中，我们根据样本估计 $\frac{1}{\widehat{n_u}}$ 的平均值，并根据顶点数进行重新归一化.

运行时间 由于我们在第三步中选择了 $O(\frac{1}{ε^3})$ 个节点并在每个节点上执行了 $O(\frac{d}{ε})$ 次 BFS，并且其他步骤的计算量都不大，因此该算法总体上需要时间 $O(\frac{d}{ε^4})$ .

正确性 回忆一下切尔诺夫界——非常强大但有很多移动部分（类似于 Hoeffding 不等式和二项式系数界限）。直观地说，这意味着，随着值的范围越来越小以及误差范围越来越大，我们得到了指数级更强大的保证。更正式地说，我们有：

定理 2 （切尔诺夫界） 令 $δ \in [0, 1]$ . 假设我们有 $X_1, X_2, . . . , X_r$ ，独立同分布的随机变量，范围 $[0, 1]$ ， $\mathbb{E}[X_i] = p$ . 令 $\sum_{i=1}^rX_i$ . 然后
$\mathbb{P}\left[\left|\frac{S}{r}-p\right|≥δp\right]≤ exp(−Ω(rpδ^2)).$
请注意，某些版本将 $X_i$ 限制为 0 − 1 随机变量. 这里我们使用更通用的版本。
如果我们在这里应用切尔诺夫界，注意到
$p=\mathbb{E}[x_i]=\frac{1}{n}\sum\limits_{u∈V}\frac{1}{\widehat{n_u}}=\frac{\widehat{c}}{n},$
$δ=\frac{ε}{2}$ 以及 $\frac{S}{r}=\frac{\widehat{c}}{n}$ . 因为对所有 $u \in V$ 有 $\frac{ε}{2}≤\frac{1}{\widehat{n_u}}≤1$ ，
$\frac{εn}{2}≤ \widehat{c} ≤ n⇒\frac{ε}{2}≤\frac{\widehat{c}}{n}≤1,$
因此
$\begin{aligned} \mathbb{P}\left[|\widetilde{c}-\widehat{c}|≥\frac{ε\widehat{c}}{2}\right] & = \mathbb{P}\left[\left|\frac{\widetilde{c}}{n}-\frac{\widehat{c}}{n}\right|≥\frac{ε\widehat{c}}{2n}\right] \\ &= \mathbb{P}\left[\left|\frac{\widetilde{c}}{n}-\frac{\widehat{c}}{n}\right|≥δp\right]\\ &≤ \exp\left(−Ω\left(\frac{b}{ε^3}pδ^2\right)\right)\\ &= \exp\left(−Ω\left(\frac{b}{ε^3}\cdot \frac{\widehat{c}}{n}\cdot \left(\frac{ε}{2}\right)^2\right)\right)\\ &≤\exp\left(−Ω\left(\frac{b}{ε^3}\cdot \frac{ε}{2}\cdot \left(\frac{ε}{2}\right)^2\right)\right)\\ &=\exp\left(−Ω(b/8)\right). \end{aligned}$
将 $b$ 设置得足够大将为我们提供一个很好的常数概率（即至少 $\frac{3}{4}$ ）使得 $\left|\widetilde{c}-\widehat{c}\right|≤\frac{ε\widehat{c}}{2}$ ，或者
$\left|\widetilde{c}-c\right|≤\left|\widetilde{c}-\widehat{c}\right|-\left|\widehat{c}-c\right|≤\frac{ε\widehat{c}}{2}+\frac{εn}{2}≤εn.$
结合我们所有的工作，这意味着我们的算法将根据需要以良好的常数概率返回 $G$ 的连通分量数的 $ε n$ -加性近似。

这就是为什么我们选择 $\frac{2}{ε}$ 作为我们估计连通分量大小的截止值，并选择 $r=\frac{b}{ε^3}$ 作为样本大小的部分原因。这些值不仅有助于使我们的运行时间独立于 $n$ ，同时仍然保持 $ε n$ -加性误差，它们还有助于降低切尔诺夫界中的 $r$ 和 $p$ ，这反过来帮助我们应用切尔诺夫界限时在最后几步中获得一个小的恒定错误概率。