hive数仓分层

在Hive的数据仓库架构中,ODS、DWD、DIM、DWS和ADS层各自具有明确的功能和角色,它们共同构成了数据处理和分析的完整流程。以下是对这五个层的清晰总结和归纳:

1. ODS层(Operation Data Store 数据准备区/贴源层)

功能

  • 数据仓库源头系统的数据表会原封不动地存储一份,作为后续数据仓库加工数据的来源。

数据来源

  • 业务库:如使用Sqoop等工具每天定时抽取数据。
  • 埋点日志:日志通常以文件形式保存,可以使用Flume等工具定时同步。
  • 消息队列:来自ActiveMQ、Kafka等的数据。

特点

  • 保持数据的原始性和完整性,不进行任何处理。
  • 是后续数据仓库加工的基础。

2. DWD层(Data Warehouse Details 细节数据层)

功能

  • 是业务层与数据仓库的隔离层。
  • 主要对ODS数据层进行数据清洗、规范化和初步的加工处理。

数据清洗和规范化

  • 去除空值、脏数据、超过极限范围的数据等。
  • 对用户行为数据进行解析,如使用Hive的get_json_object函数提取JSON数据。
  • 对核心数据进行判空过滤。
  • 对业务数据采用维度模型重新建模。

特点

  • 保证数据的质量和完整性,方便后续层中特征分析。
  • 数据清洗和规范化操作基于企业业务需求。

3. DIM层(Dimension Layer 维度层)

功能

  • 处理与业务数据相关的附加信息,如数据的业务定义、约束条件、数据字典等。
  • 提供维度数据,用于在DWD、DWS等层中进行数据的关联和分析。

特点

  • 包含了丰富的业务维度信息。
  • 是数据仓库中重要的组成部分,对于数据分析和数据挖掘至关重要。

4. DWS层(Data Warehouse Service 数据服务层)

功能

  • 基于DWD层和DIM层的基础数据,整合汇总成分析某一个主题域的服务数据层。
  • 提供高度汇总的数据,方便快速查询和分析。

特点

  • 整合了多个数据源的数据,按照业务主题进行组织。
  • 提供了宽表结构,支持复杂的数据分析和查询需求。
  • 是数据仓库的核心部分,具备高效的数据管理和存储能力。

5. ADS层(Application Data Service 应用数据服务层)

功能

  • 提供数据产品和数据分析使用的数据。
  • 通常会存储在ES、MySQL等系统中供线上系统使用。

特点

  • 面向应用的数据服务层,直接服务于数据产品和数据分析需求。
  • 提供了丰富的数据接口和查询功能,方便快速响应业务需求。
  • 是数据仓库的应用服务层,为业务决策提供支持。

总结

从ODS层到ADS层,Hive的数据仓库架构形成了一个清晰、高效的数据处理和分析流程。ODS层提供了原始数据的存储;DWD层对数据进行清洗和规范化;DIM层提供了维度数据;DWS层整合了数据并提供了高度汇总的数据;最后,ADS层将数据提供给数据产品和数据分析使用。这个流程确保了数据的高效处理和分析,为业务决策提供了有力的支持。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值