1——Hive数仓项目完整流程（在线教育）

@—笨小孩—@

已于 2022-11-06 13:18:38 修改

阅读量2.2k

点赞数 3

分类专栏： python大数据数仓实战文章标签：大数据数据仓库 python

于 2022-11-06 13:18:29 首次发布

本文链接：https://blog.csdn.net/m0_57588393/article/details/127702966

版权

python大数据同时被 2 个专栏收录

9 篇文章 0 订阅

订阅专栏

数仓实战

7 篇文章 0 订阅

订阅专栏

前言

本专栏以大数据实战“在线教育项目”为导向系统学习Hive数仓

一、项目架构

本项目基于Cloudera Manager 大数据统一管理平台，在次平台构建大数据相关的软件（Zookeeper、HDFS、YARN、Hive、oozie、Sqoop、HUE）最后使用 FineBI 报表展示

二、软件相关作用

1.大数据相关软件

HDFS：负责最终数据的存储 YARN:主要提供资源的分配

Hive：用于编写SQL进行数据分析 oozie：用来做自动化定时调度

Sqoop：用于数据的导入导出 HUE：提升操作Hadoop的用户体验，基于HUE操作HDFS、Hive......

数据流转的流程：首先，业务数据是存储在MySQL数据库中，通过Sqoop对MySQL的数据进行数据的导入操作，将数据导入至Hive的ODS层中，对数据进行清洗、转换、处理工作，处理之后对数据进行统计分析，将统计分析的结果基于Sqoop在导出到MySQL中，最后使用FineBI实现图展示操作，由于分析工作是需要周期性工作，采用oozie进行自动化的调度工作，整个项目基于Cloudera Manager进行统一化管理...

⚠️⚠️⚠️ （每个节点都需要执行）

虚拟机的关机方式：

·关机：shutdown -h now

·重启：reboot

⚠️⚠️⚠️

2.数仓

2.1数据仓库与数据库

数据仓库：存储数据的仓库，主要用于存储过去既定发生的历史数据，对这些数据进行分析操作，从而对未来提供决策支持
数据仓库的最大特点：既不生产数据，也不消耗数据；数据来源于各个数据源
数据仓库的四大特征：1.面向于主题：面向于分析，分析内容与主题一致 2.集成性：数据来源于各个数据源，将各数据源汇总在一起 3.非易失性（稳定性）：存储在数仓中的数据都是过去既定发生的数据，相对稳定，不会发生改变 4.时变性：随着时间推移，原有分析手段及原有数据可能出现变化
ETL：Extract-Transform-Load（抽取、转换、加载），指数据从数据源将数据灌入到ODS层以及从ODS层将数据抽取出来，对数据进行转换处理工作，最终将数据加载到DW层，然后DW层对数据进行统计分析，将分析后的数据灌入到DA层，整个过程都属于ETL的范畴。狭义上的ETL指从ODS层到DW层的过程
数据仓库和数据库区别：
1. 数据库（OLTP）：面向于事务（业务）的，主要用于捕获数据，主要存储最近一段时间的业务数据，交互性强（延迟低）一般不允许数据冗余
2.数据仓库（OLAP）：面向于分析（主题）的，主要用于分析数据，主要存储过去的历史数据，延迟高（交互性弱），一般允许数据冗余

OLTP与OLAP区别
OLTP OLAP
功能面向交易的事务处理面向分析查询
设计面向业务面向主题

数据
最新数据（二维数据）历史数据（多维数据）
存储 M、G（单位） T、P、E
响应时间快慢
用户业务操作人员管理决策人员

OLTP与OLAP区别
	OLTP	OLAP
功能	面向交易的事务处理	面向分析查询
设计	面向业务	面向主题
数据	最新数据（二维数据）	历史数据（多维数据）
存储	M、G（单位）	T、P、E
响应时间	快	慢
用户	业务操作人员	管理决策人员

2.2数据仓库和数据集市

数据仓库：指集团数据中心，主要将公司中所有数据集中聚集在一起进行相关的处理操作（ODS层），一般与主题无关
数据集市（小型数据仓库）：在数仓基础之上，基于主题对数据进行抽取处理分析工作，形成最终分析的结果，一个数仓下可有多个集市

2.3维度分析

维度，一般指分析的角度，看待一个问题时可有多个角度就是维度。（如，有2022年订单数据，尝试分析；可以从时间、地域、商品....）
维度可分为定性维度和定量维度
定性维度：指计算每天、每月...各个维度，一般定性维度的字段都在grou by 后
定量维度：指的统计某一个具体的维度或者某一范围下的信息，一般定量维度的字段在 where 后。（如统计2022年订单中20~30岁区间人群人数）
维度的上卷、下钻：以某一维度为基准，往细化统计的过程称为下钻；往粗粒度称为上卷
如：按照天统计，需统计出小时，指的是下钻，需统计季度、月、年成为上卷
从实际分析中，意味着统计的维度变得更多

2.4指标

指标：指衡量事务发展的标准，就是度量值；常见度量值：count()、sum()、avg().....
指标可分为绝对指标和相对指标
绝对指标：计算具体的值指标。count()、max()、min()、avg()
相对指标：计算比率问题的指标。转化率、流失率....

需求：在2022年度，女性、未婚、18~25岁，用户每一天的订单量
维度：时间维度、性别、婚姻状况、年龄
定量维度：2022年度、18~25、女
指标：订单量（绝对指标）===> count()

3.数仓建模

3.1建模理论

数仓建模：指如何在Hive中建表，主要提供两种理论进行数仓建模操作

三范式建模：主要是存在关系型数据库建模方案上，规定了比如建表的每一表都应该有一个主键，数据要经历的避免冗余发生
维度建模：主要存在分析性数据库建模方案上，主要一切以分析为目标，只要有利于分析的建模都可以，允许出现一定的冗余，表也可以无主键

三范式建模：SQL需要进行三表关联

维度建模：SQL只需要操作一张表

3.2维度建模

维度建模的两个核心概念：事实表和维度表

事实表，指分析主题所对应的表，每一天数据用于描述一个具体的事实信息，这些表都是由一堆主键（外键）和描述事实字段的聚集。（一般需要计算的指标字段所在表都是事实表）
事实表分为：
事务事实表，保存的是原子的数据，也称原子事实表；交易事实表。一般常说的事实表，大多指事务事实表
周期快照事实表，其以具有规律性的·可预见的时间间隔来记录事实，时间间隔如每天、每月、每年等，其由事务表加工产生
累计快照事实表，完全覆盖一个事务或产品的生命周期的时间跨度，通常具有多个日期字段，用来记录整个生命周期的关键时间节点

维度表，指的是在对事实表进行统计分析时，基于某一个维度，而这个维度信息可能在其他表中，而这些表就是维度表
维度表不一定存在，但维度一定存在。如：
根据用户维度进行统计，如果在事实表只存储了用户 id ，此时需要关联用户表，这个时候就是维度表
根据用户维度进行统计，如果在事实表不仅仅存储了用户 id 还存储了用户名称，这时候有用户维度，但不需要用户表的参与，意味着没有这个维度表
维度表分为高基数维度表和低基数维度表
高基数维度表，指表中数据量庞大，而且数据也在发生变化（商品表、商品表）
低基数维度表，指表中数据量不大，一般几十到几千条，并且数据相对稳定（日期表、配置表、区域表）

3.3维度建模的三种模型

星型模型
特点：只有一个事实表，就意味着只有一个分析主题，在事实表周围有多少个维度表，并且维度表之间没有任何依赖
数仓发展初期最容易产生的模型
雪花模型
特点：只有一个事实表，意味着一个分析主题，在其周围有多个维度表，维度表之间有关联
数仓发展出现畸形产生模型，这种模型一旦出现，对后期维护非常繁琐，依赖层次越大，SQL越难（尽量减少此种模型产生）
星座模型
特点：有多个事实表，意味着多个分析主题，在事实表周围有多个维度表，多个事实表在条件符合的情况下，可以共享维度表
数仓发展中后期最容易产生的模型

3.4缓慢渐变维

缓慢渐变维：解决历史变更数据是否需要维护的情况

SCD1，直接覆盖，不维护历史变化数据；主要适用于对错误数据处理
SCD2，不删除，不修改已存在的数据，当数据发生变更后，会添加一条新版本记录的数据。在建表的时候，会多加两个字段（起始时间，截至时间）通过这两个字段来标记每条数据的起止时间，一般称为“拉链表”
适用于多个历史版本，方便维护实现。
易造成数据冗余，导致磁盘占用率提升
SCD3，通过增加列的方式来维护历史变化数据，可减少数据冗余，适用于少量历史版本的记录及磁盘空间不是特别充足的情况，但无法记录更多的历史版本，以及维护比较繁琐