分布式GK Summary算法

最新推荐文章于 2023-07-07 08:17:39 发布

cyber19

最新推荐文章于 2023-07-07 08:17:39 发布

阅读量2.3k

点赞数

分类专栏： quantile xgboost 文章标签： GK-Summay 流式数据库 quantile merge prune

本文链接：https://blog.csdn.net/matrix_zzl/article/details/78660821

版权

本文介绍了分布式GK Summary算法在分布式流式数据库中的应用，详细阐述了Merge操作和Prune操作。Merge操作通过合理分配summary tuple保持误差约束，而Prune操作则通过减少summary数量以控制误差边界。

摘要由CSDN通过智能技术生成

前言
背景
分布式GK Summary算法
- 1 Merge操作
- 2 Prune操作
参考文献

0.前言

本文主要介绍分布式GK Summay算法，考虑分布式流式数据库场景，博客内容来源主要是原始论文与Emory大学的流式数据库的课程内容，本文仅提取出关键内容加入笔者的个人理解，有错误还望谅解与告知。

1.背景

现在考虑分布式流式数据库，流式数据来源如下图：

上图中每个Processing Node需要统计对应的数据，然后将统计数据merge生成可查询的Summary。上篇博客我们知道对于数据流如何构建GK Summary来支持

ϵ−approximate ϕ−quantile $\epsilon-approximate \ \phi-quantile$ 分位点查询，但是由于数据流来源分布不同，而查询应该基于全局数据，因此需要将所有GK Summary合并merge生成最终全局的Summary查询结构。本文就来探讨分布式GK summary的merge操作以及Prune操作。后续会介绍到Prune操作，不同于上篇GK Summary的delete与compress操作，该操作直接对Summary进行删减，会牺牲误差边界，merge与prune操作是后续A fast algorithm的基础操作。

2.分布式GK Summary算法

2.1 Merge操作

考虑2个summary merge情况，已经按照summary tuple内部 $v$ 大小排序：

Q' = {(x 1, r m i n (x 1), r m a x (x 1)), (x 2, r m i n (x 2), r m a x (x 2)), . . ., (x n, r m i n (x n), r m a x (x n))} Q ″ = {(y 1, r m i n (y 1), r m a x (y 1)), (y 2, r m i n (y 2), r m a x (y 2)), . . ., (y m, r m i n (y m), r m a x (y m))}

$Q' = \{(x_1, r_{min}(x_1), r_{max}(x_1)) , (x_2, r_{min}(x_2), r_{max}(x_2)), ... , (x_n, r_{min}(x_n), r_{max}(x_n))\} \\ Q'' = \{(y_1, r_{min}(y_1), r_{max}(y_1)) , (y_2, r_{min}(y_2), r_{max}(y_2)), ... , (y_m, r_{min}(y_m), r_{max}(y_m))\}$
注，上述summary基于

(v,rmin,rmax) $(v,r_{min},r_{max})$ 形式，之前博客已经说明，该形式等价于

(v,g,Δ) $(v,g,Δ)$ ，后者主要方便新增数据的summary更新，但是前者可读性更高，故本文说明基于前者形式。

如何merge生成最终 $Q$ ：

{(z 1, r m i n (z 1), r m a x (z 1)), (z 2, r m i n (z 2), r m a x (z 2)), . . ., (z n, r m i n (z n), r m a x (z s))}

$\{(z_1, r_{min}(z_1), r_{max}(z_1)) , (z_2, r_{min}(z_2), r_{max}(z_2)), ... , (z_n, r_{min}(z_n), r_{max}(z_s))\}$

Merge方案：首先，考虑 $s=n+m$ ，关键是分配每个 $Q$ 中summary的 $z_i$ 、 $r_{minQ}(z_n)$ 以及 $r_{maxQ}(z_n)$ 。
不失一般性，假设分配 $Q'$ 中的 $x_r$ 到 $Q$ 中 $z_i$ ，满足：

max y s \in Q ″ < x r min y t \in Q ″ > x r

$\max\limits_{y_s ∈ Q''} < x_r \\ \min\limits_{y_t ∈ Q''} > x_r$
此时，可以分配

rminQ(zn) $r_{minQ}(z_n)$ 与

rmaxQ(zn) $r_{maxQ}(z_n)$ ：

r m i n Q (z i) = {r m i n Q' (x r) r m i n Q' (x r) + r m i n Q ″ (y s), 不 存 在 y s, 其 他

最低0.47元/天解锁文章

cyber19

关注

0
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
分布式GK Summary算法

前言背景分布式GK Summary算法1 Merge操作2 Prune操作参考文献0.前言本文主要介绍分布式GK Summay算法，考虑分布式流式数据库场景，博客内容来源主要是原始论文与Emory大学的流式数据库的课程内容，本文仅提取出关键内容加入笔者的个人理解，有错误还望谅解与告知。1.背景现在考虑分布式流式数据库，流式数据来源如下图：上图中每个Process
复制链接

扫一扫

专栏目录