概述
OLAP在推动企业数字化转型、提高决策分析效率等场景占了举足轻重的作用。市场上数仓选型非常多,升级后往往也越来越像。因为OLAP底层技术有很多共通之处,本文将揭秘其中一些常用的技术手段。期望能帮助读者更好地进行技术选型和数仓设计。
笔者将常用手段总结成了优化IO和计算,有些手段可能同时用到,图中暂不标注。
- IO优化:随着CPU的发展,现在瓶颈一般在IO。而IO有个特点“离CPU越远,访问越慢”,我们可以借用这些特性,减少IO或远程访问量,来提高OLAP查询效率。
- 优化计算:通过优化计算复杂度、借用分布式的算力等,提高查询效率。
图:OLAP常用优化手段
图:存储访问性能
优化IO
索引
对数据进行索引,快速定位到所查询数据,减少无用数据扫描,提高查询性能。如Mysql等中用到B+树作为索引提高查询性能。
常用应用场景:
①Hive等中利用日期进行分区,可以减少查询数据量
②Doris、Kylin中编排数据时,将常用字段放在前面,充分利用前缀索引来提高查询性能
常用技术选型:MySQL、Elasticsearch等
图:B+树
图:前缀索引
缓存
将常用中间数据缓存起来,减少磁盘等的访问,提高查询性能。
常用应用场景:公司的准实时即席查询平台中,中间封装一层Alluxio,提高查询性能
常用技术选型:SparkSQL(替换了HIVE)、Alluxio等
图:借用Alluxio加速数仓分析效率
列式存储
以数据列为逻辑单元管理数据,相邻的数据都是具有相同类型的数据。
- 数据压缩:因为类似数据存储在一起,能提高提高压缩率,节省成本
- 按需取数:我们往往只需要其中几列数据,相比行存储能避免扫描全量数据,降低磁盘I/O,降低查询响应时间。
常用应用场景:即席查询
常用技术选型:SPARKSQL+列式存储,IMPALA+列式存储等
图:行列存储对比
向量化引擎
对内存中的列式数据,一个batch调用一次SIMD指令(而非每一行调用一次),不仅减少了函数调用次数、降低了cache miss,而且可以充分发挥SIMD指令的并行能力,大幅缩短了计算耗时。
常用技术选型:Clickhouse等,
协处理器
在计算和存储分离场景,常规方式是取数回来,进行计算分析,而这往往有大量的网络IO。通过HBASE等提供的协处理器技术,可以将一些算子在远程执行,如filter、sum等,然后OLAP引擎将数据取回做进一步计算,这样能大幅降低网络IO,提高查询性能。
常用应用场景:Kylin查询数据时,利用Hbase提供的协处理器能力,提高查询性能
常用技术选型:Kylin,Hbase等
优化计算
MPP
采用分而治之的思路,在整体计算复杂度不变的请看下,通过增加计算资源(多线程或者分布式)来缩短计算耗时,整体快速返回用户查询结果。
常用应用场景:当前即席查询技术用到了大量MPP架构的特点。
常用技术选型:SPARKSQL+列式存储,IMPALA+列式存储等,
图:MPP示意图
近似计算
在算UV、分位数等指标时,因为每次计算需要全局数据,需要较大计算资源。在很多分析场景,往往不需要100%的准确性。有一些近似计算的选型,我们可以借助这些库(或者算法)并结合真实应用场景,小成本的快速响应业务查询分析需求
- 素描:部分库通过提供较高精准度、较少的计算资源、较快的运算速度,来计算UV、分位数等指标,如HyperLogLog、TDigest等
- 抽样:对于较大规模的原始数据,随机(如将用户ID基于MurmurHash分桶)抽取一定比例数据进行分析,能降低整体的计算量,也能保障较高的精准度
常用应用场景:DMP人群的快速筛选、实时异常监控分析等
常用技术选型:Apache DataSketches、SparkSQL、ElasticSearch等
图:DataSketches上的近似计算
预计算
将可能的结果预先计算出来,以空间换时间,提高查询性能。
常用应用场景:
①报表加速:将所有可能查询结果计算出来以提高查询性能
②上卷表:部分数据库导入一些中间表或者明细表之后,为常用的查询场景,构建上卷表,可以提高查询性能。
常用技术选型:Kylin、Druid、Doris等