基于Hue，Dolphinscheduler，HIVE分析数据仓库层级实现及项目需求案例实践分析

Len°

已于 2022-06-09 15:56:24 修改

阅读量1.3k

点赞数

分类专栏： Hadoop 文章标签： hadoop big data hive

于 2022-06-09 15:47:14 首次发布

本文链接：https://blog.csdn.net/weixin_38626799/article/details/125199696

版权

Hadoop 专栏收录该内容

1 篇文章 0 订阅

订阅专栏

一、数仓各个层级及作用

1，ODS层（Operation Data Store-源数据层）

2，DW层（Data Warehouse-数据仓库层）

(1)DWD(Data Warehouse Detail-明细数据层)

(2)DWM(Data Warehouse Middle-明细数据层)

(3)DWS(Data Warehouse Service服务数据层)

3，ADS层（Application Data Store-数据应用层）

4，DIM层（Dimension-维度层）

二、基于项目需求案例实践分析

1，ODS层-拉取数据并导入hive

2，DIM层-对用户的详情作为维度（多个left join）

补充：Hue-可视化hive工具（类似于Navicat）

前言：

最近因公司业务调整开始涉及大数据方面知识，现开始学习数据仓库等技术知识。本章主要是用来分析根据业务数仓的各个层级及工具的运用。核心:HIVE。

一、数仓各个层级及作用

1，ODS层（Operation Data Store-源数据层）

这层一般不需要做任何的清洗工作，只需要把源数据中的数据插入到数仓中。

2，DW层（Data Warehouse-数据仓库层）

(1)DWD(Data Warehouse Detail-明细数据层)

对ODS层数据进行清洗（去除空值，脏数据，超过极限范围的数据）、维度退化、脱敏等

(2)DWM(Data Warehouse Middle-数据中间层)

该层会在DWD层的数据基础上，对数据做轻度的聚合操作，生成一系列的中间表，提升公共指标的复用性，减少重复加工。一般而言，针对DWM层的设计开发是建立在，积累一定数量DM和相关需求后，将设计到重复的指标和维度下沉到DWM的表中，因此在数仓建立初期，可能会有直接跳过DWM来开发的情况(本文就是跳过此层设计)，但是随着相似的需求不断的增加，DWM的开发势在必行，而到了这种时候，我们可以以历史需求为参考，思考那些指标和维度是业务真正需要的，从而设计相应的表，避免开发大量无用的表，消耗不必要的存储和计算资源。在该层中的汇总表根据维度数量不同分为2种，一种是单一维度轻度汇总表，另一种是多维度轻度汇总表。

(3)DWS(Data Warehouse Service服务数据层)

以DWD为基础，按天，主题等进行轻度汇总。

3，ADS层（Application Data Store-数据应用层）

在DW层处理完成的数据通过工具进行可视化加工，当数据处理完成存储在Hive中，处理完成的数据可以通过ETL（Extract-Transform-Load）工具推送到关系型数据库中（例如Mysql），一般情况下，数据都有一个储存周期，400天左右，我们使用的可视化-工具平台（Dolphinscheduler），可以进行同比（年）、环比（月），这些数据形成一个数据集（结果），最后一步就是根据业务需求来配置报表