Hive - 数仓的分层理论

最新推荐文章于 2024-08-09 16:39:42 发布

「已注销」

最新推荐文章于 2024-08-09 16:39:42 发布

阅读量3.6k

点赞数 5

文章标签：大数据

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/miaoso/article/details/109074406

版权

本文介绍了Hive在大数据中的数仓分层理论，包括分层的原因、基本分层模型以及各层级的用途。重点阐述了ODS、DWD、DWS和ADS层的功能，并提出了开发规范和常见误区，旨在规范数据处理并提高效率。

摘要由CSDN通过智能技术生成

Hive - 数仓的分层理论

大数据职业规划

数据仓库 --> 数据开发 --> 数据挖掘 --> 全栈架构

在这里插入图片描述

数据仓库的用途

整合公司所有业务数据，建立统一的数据中心
产生业务报表，用于作出决策
为网站运营提供运营上的数据支持
可以作为各个业务的数据源，形成业务数据互相反馈的良性循环
分析用户行为数据，通过数据挖掘来降低投入成本，提高投入效果
开发数据产品，直接或间接地为公司盈利

数仓运行简图

在这里插入图片描述

数仓分层

1. 分层原因

把复杂问题简单化：将复杂的任务分解成多层来完成，每一层只处理简单任务，方便定位问题。
减少重复开发：规范数据分层，通过中间层数据，能够减少大量的重复计算，增加一次计算结果的复用性。
隔离原始数据：不论是数据的异常还是数据的敏感性，使真实数据与统计数据隔离开。

2. 基本分层模型

ODS（数据源层，原始数据） – ETL --> DWD（数据明细层） – hive sql --> DWS（数据汇总） – sqoop --> ADS（数据应用：报表、用户画像）

在这里插入图片描述

3. 数据仓库分层

3.1 数仓分层概述

在阿里巴巴的数据体系中，建议将数据仓库分为三层，自下而上为：

数据引入层（ODS，Operation Data Store）
数据公共层（CDM，Common Data Model）
- 公共维度层（DIM，Dimension）
- 数仓明细层（DWD，Data Warehouse Detail）
- 数据汇总层（DWS，Data Warehouse Service）
数据应用层（ADS，Application D

最低0.47元/天解锁文章

「已注销」

关注

5
点赞
踩
27

收藏

觉得还不错? 一键收藏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。