数仓OLAP技术哪家强

最新推荐文章于 2024-08-22 10:37:57 发布

迷路剑客

最新推荐文章于 2024-08-22 10:37:57 发布

阅读量622

点赞数 1

分类专栏：数据仓库 olap

原文链接：https://mp.weixin.qq.com/s/Dt7lfIN05GnEAy9ASnI1_w

版权

数据仓库同时被 2 个专栏收录

5 篇文章 16 订阅

订阅专栏

olap

1 篇文章 0 订阅

订阅专栏

数仓OLAP技术哪家强

转载声明

本文大量内容系转载自以下文章，有删改，并参考其他文档资料加入了一些内容：

再次分享！漫谈数仓OLAP技术哪家强？
作者：仙子紫霞
出处：数据仓库与Python大数据
有人说下kudu,kylin,druid,clickhouse的区别,使用场景么?
作者：湿人彭
出处：知乎

1 概述

数据应用，是真正体现数仓价值的部分，包括且又不局限于数据可视化、BI、OLAP、即席查询，实时大屏，用户画像，推荐系统，数据分析，数据挖掘，人脸识别，风控反欺诈，ABtest等等。

在这里插入图片描述
本文侧重于数据应用之BI可视化和OLAP技术选型。

2 BI可视化工具

2.1 BI现状

大数据时代商业智能（BI）和数据可视化诉求更为强烈，淘宝大屏更是风靡全球！数据可视化是大数据『最后一公里』- BI唤醒沉睡的数据。

传统型BI力求大而全的统一综合型报表和分析平台，侧重传统式报表开发，俨然一把屠龙刀；而现互联网公司快速迭代的业务发展，需要的却是倚天剑，促使自助式BI和敏捷BI得以迅速发展。

时代召唤，传统BI巨头也逐渐向自助式BI和云BI转型。一时间，BI数据可视化已呈现出"百家争鸣，群雄争霸"的态势！

2.2 BI分类

在这里插入图片描述

统看业界可视化BI工具可大致分为：开源bi，商业bi，和传统重bi工具，业界目前比较流行的：

开源bi工具有
Superset、metabase、Redash、Cboard、Spagobi等
商业bi工具有
帆软、tableau、PowerBI、SmartBI、QlinkView、QuickBI等
传统企业、传统数仓
大多依然沿用重bi产品，如Congos、BIEE、BO、MicroStrategydeng等。

详细每一款bi工具，我们前面文章有详细介绍。如果你感兴趣，或正在调研开BI工具选型，可移步：大数据可视化BI工具，呕血总结，通幽洞微

3 OLAP基本操作和类型

3.1 概述

OLAP，On-Line Analytical Processing，在线分析处理，主要用于支持企业决策管理分析。区别于OLTP，On-Line Transaction Processing，联机事务处理。

OLAP的优势：丰富的数据展现方式、高效的数据查询以及多视角多层次的数据分析。
在这里插入图片描述
数据仓库与OLAP的关系是互补的，现代OLAP系统一般以数据仓库作为基础，即从数据仓库中抽取详细数据的一个子集并经过必要的聚集存储到OLAP存储器中供前端分析工具读取。

3.2 OLAP多维分析

3.2.1 概述

OLAP的多维分析操作包括：钻取（Drill-down）、上卷（Roll-up）、切片（Slice）、切块（Dice）以及旋转（Pivot）。

3.2.2 钻取

在这里插入图片描述
维的层次变化，从粗粒度到细粒度，汇总数据下钻到明细数据。

如通过季度销售数据钻取每个月的销售数据

3.2.3 上卷

在这里插入图片描述
上卷是钻取的逆操作，向上钻取，即从细粒度到粗粒度，细粒度数据到不同维层级的汇总。

eg. 通过每个月的销售数据汇总季度、年销售数据

3.2.4 切片

在这里插入图片描述
特定维数据（剩余维两个）。

eg. 只选电子产品的以地域和季度为维度统计的销售数据

3.2.5 切块

在这里插入图片描述
维区间数据（剩余维三个）。

eg. 第一季度到第二季度的，以品类、季度、地域为维度统计的销售数据

3.2.6 旋转

在这里插入图片描述
维位置互换（数据行列互换），通过旋转可以得到不同视角的数据。

维度先后发生变化。

3.3 OLAP分类

在这里插入图片描述
OLAP按存储器的数据存储格式分为：

ROLAP（Relational OLAP）
完全基于关系模型进行存储数据，不需要预计算，按需即时查询。明细和汇总数据都保存在关系型数据库事实表中。

代表技术栈有Presto、impala with Kudu ClickHouse等
MOLAP（Multi-dimensional OLAP）
基于多维数组的存储模型，也是OLAP最初的形态，特点是对数据进行预计算，以空间换效率，明细和聚合数据都保存在cube中，但生成cube需要大量时间和空间。

代表技术有Kylin、Druid
HOLAP（Hybrid OLAP）
相当于是ROLAP和MOLAP混合模型，其中：
- 细节数据以ROLAP存放
- 聚合数据以MOLAP存放
这种方式相对灵活，且更加高效。可按企业业务场景和数据粒度进行取舍，没有最好，只有最适合。