大数据最新【其他】多维分析预汇总应该怎样做才管用？(2)-CSDN博客

本文链接：https://blog.csdn.net/2401_84181309/article/details/138435135

本文探讨了多维分析中的预汇总策略，强调了全量预汇总的不现实性，介绍了SPL的部分预汇总和时间段预汇总技术，以及如何通过硬遍历和布尔维序列优化性能。同时提到了标签位维度的应用。最后指出，尽管预汇总有其局限，但SPL的优秀能力在实践中表现突出。

摘要由CSDN通过智能技术生成

多维分析（OLAP）通常要求极高的响应效率，当涉及的数据量很大时，每次都基于明细数据汇总效率就会很低，人们会考虑采用预汇总的方式加快查询速度，即事先将要查询的结果计算好，使用时直接读取预汇总结果就可以获得实时响应，从而满足交互分析的需要。

不过，将可能的维度组合全部预汇总不太现实，按中间CUBE大小仅1KB计算50个维度的全量预汇总需要的存储空间高达1MT，需要100百万块1T的硬盘，即使只汇总其中20个维度也要占用470000T的空间（多维分析预汇总的存储容量），显然都不能接受。所以，一般会采用部分预汇总的方式，汇总其中一部分维度以平衡存储空间和性能需要。

预汇总方案的困境

其实，即使不考虑容量问题，预汇总也只能满足多维分析中一小部分相对固定的查询需求，稍微复杂灵活的场景就搞不定了，而这些场景在实际业务中大量存在。

非常规聚合：除了常见的合计、计数外，有些非常规聚合，比如唯一计数、中位数、方差等很可能被遗漏，也无法从其它聚合值计算出来。理论上有无数种聚合运算，不可能被预汇总。
组合聚合：聚合运算可能组合。比如我们可能关心月平均销售额，这个值是将每天的销售额按月合计后再求平均。它并不是单纯的合计和平均，而是两种聚合运算在不同维度层次上的组合。这些也不太可能事先预汇总。
条件测度：测度在统计时还可能带有条件。比如，我们想了解一下交易金额大于 100 元以上的订单销售额合计。这个信息也无法在预汇总时处理，因为 100 会是临时输入的参数。
时间段统计：时间是个特别维度，它即可以枚举、也可以采用连续区间的方式来做切片。查询区间的起止点可能是细粒度（比如到某日），就必须用细粒度的数据再统计，而无法直接使用更高层的预汇总数据。

预汇总的确能一定程度地提高多维分析的性能，但只能应对多维分析中很少的场景，而且还只能部分预汇总，使用场景就更有限了，即使这样还要面临巨大存储空间的问题。把多维分析的效果寄希望于预汇总方案并不靠谱。要做好多维分析，硬遍历的功夫是基本的，即使有了预汇总数据，也要在优秀的硬遍历能力辅助下才能发挥更大的作用。

SPL预汇总

开源的集算器SPL提供了常规多维分析预汇总方式，还有特色的时间段预汇总，更重要的是借助SPL优秀的数据遍历能力还能满足多维分析更广泛的场景需要。

首先看一下SPL的预汇总能力。

部分预汇总

全量预汇总不现实，只能进行部分预汇总，虽然无法达到O(1)的响应速度，但也可以把性能提升几十倍，有一定意义。SPL可以根据需要建立多个预汇总的中间结果。例如，数据表 T 有 A、B、C、D、E 五个维度。根据业务经验就可以预先计算出来了几个最常用的中间结果。

上图中cube 占用存储空间的大小用条形长度来表示，cube1 最大，cube2 最小。前端应用来了一个请求，要按照 B、C 做统计汇总。这时 SPL 对多个 cube 自动选择的过程大致如下。

第i步，SPL 找到可以利用的 cube 是 cube1 和 cube3。第 ii 步，SPL 发现 cube1 比较大，就会自动选择比较小的 cube3，并在其基础上按 B、C 做分组汇总。

SPL代码示例：


	A
1	=file(“T.ctx”).open()
2	=A1.cuboid(cube1,A,B,C;sum(…),avg(…),…)
3	=A1.cuboid(cube2,A,C,D;sum(…),avg(…),…)
4	=A1.cgroups(B,C;sum(…), avg(…))

使用 cuboid 函数建立预汇总数据（A2和A3），需要起个名字（如cube1），剩下的参数是维度和汇总测度；A4使用时通过cgroups函数就会自动利用上面的规则使用中间cube并选择数据量最小的使用了。

时间段预汇总

时间是多维分析中特别重要的一种维度，它即可以枚举、也可以采用连续区间的方式来做切片。比如业务中经常要查询如 5 月 8 日到 6 月 12 日之间的销售额合计，这个起止时间点也是查询时作为参数传递进来的，具有很强的随意性。时间段统计还可能有多个组合关联的情况，比如看看 5 月 8 日到 6 月 12 日间销出的、生产日期在 1 月 9 日到 2 月 17 日之间的货品总额。类似这种时间段统计有很强的业务意义，但却无法使用常规预汇总方案应对。
针对这种特殊的时间段统计，SPL提供了时间段预汇总方式。例如，订单表已经有一个按照订单日期预汇总的cube1，那么我们可以在此基础上再增加一个按月预汇总的cube2。这时要计算 2018 年 1 月 22 日到 9 月 8 日的金额汇总值，大致过程会是这样：

将时间段分成三段，2月到8月整月的数据基于月汇总cube2计算聚合值，再使用cube1计算 1 月 22 日到 1 月 31 日和 9 月 1 日到 9 月 8 日的聚合值，涉及的计算量是 7（2 月 -8 月）+10（1 月 22 日 -1 月 31 日）+8（9 月 1 日 -9 月 8 日）=25，而如果使用cube1数据聚合，其计算量是 223（从 1 月 22 日到 9 月 8 日的天数），几乎减少了 10 倍。

SPL代码示例：


	A
1	=file(“orders.ctx”).open()
2	=A1.cuboid(cube1,odate,dept;sum(amt))
3	=A1.cuboid(cube2,month@y(odate),dept;sum(amt))
4	=A1.cgroups(dept;sum(amt);odate>=date(2018,1,22)&&dt<=date(2018,9,8))

cgroups 函数增加了条件参数，SPL 发现有时间段条件和更高层次的预汇总数据，则会使用时间段预汇总机制来减少运算量。本例中，就会分别从 cube1 和 cube2 中读取相应数据再来汇总。

SPL硬遍历

预汇总能够应对的场景仍然很有限，要做出灵活的多维分析，还是要指望过硬的遍历能力。多维分析运算本身并不算复杂，遍历计算主要是针对维度的过滤。传统数据库只能用WHERE硬算，维度相关的过滤也当作常规运算，不能获得较好的性能。SPL提供了多种维度过滤机制，可以满足各类多维分析场景的性能要求。

布尔维序列

多维分析中最常见的切片（切块）是针对枚举维度进行的，除了时间维度几乎都是枚举维度，如产品、地区、类型等。常规处理方式用SQL表达大概这样：

SELECT D1,…,SUM(M1),COUNT(ID)… FROM T GROUP BY D1,…
WHERE Di in (di1,di2…) …

其中的Di in（di1,di2）就是过滤字段在一个枚举范围内取值。在实际应用中，“按照客户性别、员工部门、产品类型等切片”都属于枚举维度切片。常规的IN方法需要进行多次比较判断才能筛选出符合条件的数据（切片），性能很低，IN的取值越多性能就越差。

SPL将查找运算转换成取值运算来提升性能。先将枚举维度转换成整数），如下图将事实表中的维度D5取值转化成在维表中的序号（位置）：

然后在查询时将切片条件转换成布尔值构成的对位序列，在比较时就可以直接从序列指定位置取出值（true/false）判断结果，快速完成切片操作。

SPL数据预处理代码示例：


	A
1	=file(“T.ctx”).open()
2	=file("T_new.ctx”).create(…)
3	=DV=T(“DV.btx”)
4	=A1.cursor().run(D=DV.pos@b(D))
5	=A2.append@i(A4)

A3读取维表，A4 利用 DV 把维度 D 转换成整数。DV 将被另外保存供查询时使用。

切片汇总：


	A
1	=file(“T.ctx”).open()
2	=DV.(V.pos(~))
3	=A1.cursor(…;A2(D))
4	=A3.groups(…)

A2 将参数 V 转化成一个和 DV 同长的布尔值序列，DV 的成员在 V 中时，则 A2 对应位置的成员将非空（判断时起到 true 的作用），否则填成空（也就是 false）。然后在遍历切片时，只用已经转换成整数维度 D 作为序号去取这个布尔值序列的成员，如果非空就表明原来的维度 D 是属于切片条件 V 的。序号取值的运算复杂度远远小于IN比较，大幅提升切片性能。

SPL优秀的硬遍历能力在实践中应用效果明显，在开源 SPL 提速银行用户画像客群交集计算 200+ 倍这个案例中，借助布尔维序列、游标前过滤等硬遍历技术将银行用户画像客群交集计算效率提升了200倍以上。

标签位维度

多维分析中还有一种特殊的枚举维度常用于切片（很少用于分组统计），其取值只有是/否或true/false两种情况，被称为标签维度或二值维度，比如人员是否结婚、是否上过大学、是否拥有信用卡等。标签维度切片属于过滤条件中的是否型计算，用SQL表达大概这样：

SELECT D1,…,SUM(M1),COUNT(ID)… FROM T GROUP BY D1,…
WHERE Dj=true and Dk=false …

网上学习资料一大堆，但如果学到的知识不成体系，遇到问题时只是浅尝辄止，不再深入研究，那么很难做到真正的技术提升。

需要这份系统化资料的朋友，可以戳这里获取

一个人可以走的很快，但一群人才能走的更远！不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人，都欢迎加入我们的的圈子（技术交流、学习资源、职场吐槽、大厂内推、面试辅导），让我们一起学习成长！

升。**

需要这份系统化资料的朋友，可以戳这里获取