GK Summay算法（ϵ−approximate ϕ−quantile）

最新推荐文章于 2022-03-21 11:53:53 发布

cyber19

最新推荐文章于 2022-03-21 11:53:53 发布

阅读量5.6k

点赞数 4

本文链接：https://blog.csdn.net/matrix_zzl/article/details/78641264

版权

本文介绍了GK Summary算法，一种用于分布式系统和流式数据的近似分位点算法。GK Summary解决了在线查询summary的复杂度问题，通过维护相对值结构来优化插入和查询效率。算法包括插入、删除和压缩操作，并通过 bands 树结构进行高效管理。论文还探讨了压缩操作的执行时机以及算法的几个关键性质。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

前言
背景
GK Summary算法
参考文献

0.前言

XGBoost不仅在单机上通过OMP实现高度并行化，还通过MPI接口与近似分位点算法（论文中是weighted quantiles sketch）实现高效的分布式并行。其中weighted quantiles sketch框架基于 $\epsilon$ -approximate quantile近似分位点算法。不得不说分位点算法在分布式系统、流式系统中使用是个很天才的想法，很多分布式算法的基石。早在2001年，M.Greenwald和S. Khanna提出了GK Summay分位点近似算法（ϵ−approximate ϕ−quantile），直到到2007年被Q. Zhang和W. Wang提出的多层level的merge与compress/prune框架进行高度优化，而被称为A fast algorithm for approximate quantiles，目前XGBoost框架套用A fast algorithm算法结构。

本文主要介绍GK Summay算法，后续博客会持续更新分布式GK Summay算法以及A fast algorithm for approximate quantiles算法，最后还会分析XGBoost中使用的weighted quantiles sketch算法，博客内容来源主要是原始论文与Emory大学的流式数据库的课程内容，本文仅提取出关键内容加入笔者的个人理解，有错误还望谅解与告知。

1.背景

$\phi-quantile$ 分位点概念：排序为 $rank = \lfloor \phi N \rfloor$ 的元素，其中 $N$ 为序列中元素的个数。考虑以下例子数据：

11, 21, 24, 61, 81, 39, 89, 56, 12, 51

$11 \ ,\ 21 \ ,\ 24 \ ,\ 61 \ ,\ 81 \ ,\ 39 \ ,\ 89 \ ,\ 56 \ ,\ 12 \ ,\ 51$
查询

ϕ−quantile $\phi-quantile$ 分位点所在数据前，需要对无序数据进行排序：

i n p u t : s o r t : r a n k : 111112112224213612448139539516895675661812819518910

$\begin{array}{cc} input:&11&21&24&61&81&39&89&56&12&51 \\ sort:&11&12&21&24&39&51&56&61&81&89 \\ rank:&1&2&3&4&5&6&7&8&9&10 \end{array}$
排序后很容得到：

0.5−quantile $0.5-quantile$ 对应

rank=5 $rank=5$ ，值为39。此外还有，

0.1−quantile $0.1-quantile$ 对应

rank=1 $rank=1$ ，值为11。

$\epsilon-approximate \ \phi-quantile$ 分位点概念：考虑误差近似，即给定误差 $\epsilon$ 和分位点 $\phi$ ，只需要给定排序区间 $r^ \prime \in [(\phi-\varepsilon) N, \ (\phi+\varepsilon) N]$ 内任意元素即可。类似地，给定 $\varepsilon=0.1, ϕ=0.5$ ，可得rank值在区间 $\{4,5,6\}$ 。给定区间内任意元素，都满足排序误差 $\epsilon N$ 要求。

为了满足对数据近似分位点的频繁查询，考虑以下几种场景：

1. 固定不变的数据集
2. 流式数据，数据长度不断增加
3. 数据源分布存储，但数据长度固定
4. 数据源分布存储+流式数据，数据长度不断增加

对于场景1，可以对数据进行预排序，每次查询采用二分法精确查找，时间复杂度为 $O(\log N)$ 。考虑排序误差 $\epsilon N$ ，我们可以对数据进行分桶，分桶长度为 $\epsilon N$ 来保证误差，即分 $1/\epsilon$ 个桶，时间复杂度降低为 $O(\log (1/\epsilon))$ ，简单的离线排序和分桶都属于offline算法，无法满足场景2、3、4场景，这就需要本文介绍online算法来构建查询summary。