数据仓库(二) 数仓理论（重点核心）

最新推荐文章于 2024-08-05 21:43:10 发布

置顶

溜三丝耶

最新推荐文章于 2024-08-05 21:43:10 发布

阅读量3.4k

点赞数 10

分类专栏：项目开发文章标签：大数据数据仓库

本文链接：https://blog.csdn.net/Sarahdsy/article/details/106931344

版权

麻烦给我来一杯mojito，我喜欢数仓上头的感受~

在这里插入图片描述

原始数据层，存放原始数据，直接加载原始日志，数据。数据保存原貌不做处理，起到备份数据的作用。
数据采用压缩，减少磁盘存储空间（例如：原始数据100G，可以压缩到10G左右，LZO）
创建分区表，防止后续的全表扫描。

对ODS层数据进行清洗（去除空值，脏数据，超过极限范围的数据），维度退化，脱敏等。
需构建维度模型，一般采用星型模型，呈现的状态一般为星座模型。

以DWD为基础，按天进行轻度汇总。
统计各个主题对象的当天行为，服务于DWT层的主题宽表，以及一些业务明细数据，应对特殊需求（例如，购买行为，统计商品复购率）。

以DWS为基础，按主题进行汇总。
以分析的主题对象为建模驱动，基于上层的应用和产品的指标需求，构建主题对象的全量宽表。

为各种统计报表提供数据。

将复杂的任务分解成多层来完成，每一层只处理简单的任务，方便定位问题。

规范数据分层，通过中间层数据，能够减少极大的重复计算，增加一次计算结果的复用性。

不论是数据的异常还是数据的敏感性，使真实数据和统计数据解耦开。

当今的数据处理大致可以分成两大类：联机事务处理OLTP(on-line transaction processing)，联机分析处理OLAP(on-line analytical processing)。

二者的主要区别对比：

在这里插入图片描述

从图中可以看出，较为松散，零碎。物理表数量多，而数据冗余程度低。
由于数据分布于众多的表中，这些数据可以更为灵活的被应用，功能性较强。
关系模型主要应用于OLTP系统中，为了保证数据的一致性以及避免冗余，所以大部分业务系统的表都是遵循第三范式的。

关注