1——Hive数仓项目完整流程(在线教育)

目录

前言

一、项目架构

二、软件相关作用

1.大数据相关软件

2.数仓

        2.1数据仓库与数据库

        2.2数据仓库和数据集市

        2.3维度分析

        2.4指标

3.数仓建模

        3.1建模理论

        3.2维度建模

        3.3维度建模的三种模型

        3.4缓慢渐变维

总结



前言

本专栏以大数据实战“在线教育项目”为导向系统学习Hive数仓


一、项目架构

本项目基于Cloudera Manager 大数据统一管理平台,在次平台构建大数据相关的软件(Zookeeper、HDFS、YARN、Hive、oozie、Sqoop、HUE)最后使用 FineBI 报表展示

二、软件相关作用

1.大数据相关软件

HDFS:负责最终数据的存储                        YARN:主要提供资源的分配

Hive:用于编写SQL进行数据分析                oozie:用来做自动化定时调度

Sqoop:用于数据的导入导出                        HUE:提升操作Hadoop的用户体验,基于HUE操作HDFS、Hive......

数据流转的流程:首先,业务数据是存储在MySQL数据库中,通过Sqoop对MySQL的数据进行数据的导入操作,将数据导入至Hive的ODS层中,对数据进行清洗、转换、处理工作,处理之后对数据进行统计分析,将统计分析的结果基于Sqoop在导出到MySQL中,最后使用FineBI实现图展示操作,由于分析工作是需要周期性工作,采用oozie进行自动化的调度工作,整个项目基于Cloudera Manager进行统一化管理...

 


⚠️⚠️⚠️ (每个节点都需要执行)

虚拟机的关机方式:

        ·关机:shutdown -h now

        ·重启:reboot

⚠️⚠️⚠️


2.数仓

        2.1数据仓库与数据库

  • 数据仓库:存储数据的仓库,主要用于存储过去既定发生的历史数据,对这些数据进行分析操作,从而对未来提供决策支持
  • 数据仓库的最大特点:既不生产数据,也不消耗数据;数据来源于各个数据源
  • 数据仓库的四大特征:1.面向于主题:面向于分析,分析内容与主题一致                                                            2.集成性:数据来源于各个数据源,将各数据源汇总在一起                                              3.非易失性(稳定性):存储在数仓中的数据都是过去既定发生                                                    的数据,相对稳定,不会发生改变                                                                       4.时变性:随着时间推移,原有分析手段及原有数据可能出现变化
  • ETL:Extract-Transform-Load(抽取、转换、加载),指数据从数据源将数据灌入到ODS层以及从ODS层将数据抽取出来,对数据进行转换处理工作,最终将数据加载到DW层,然后DW层对数据进行统计分析,将分析后的数据灌入到DA层,整个过程都属于ETL的范畴。狭义上的ETL指从ODS层到DW层的过程
  • 数据仓库和数据库区别:
    • 1. 数据库(OLTP):面向于事务(业务)的,主要用于捕获数据,主要存储最近一段时间的业务数据,交互性强(延迟低)一般不允许数据冗余
    • 2.数据仓库(OLAP):面向于分析(主题)的,主要用于分析数据,主要存储过去的历史数据,延迟高(交互性弱),一般允许数据冗余
OLTP与OLAP区别
OLTPOLAP
功能面向交易的事务处理面向分析查询
设计面向业务面向主题

数据

最新数据(二维数据)历史数据(多维数据)
存储M、G(单位)T、P、E
响应时间
用户业务操作人员管理决策人员

        2.2数据仓库和数据集市

  • 数据仓库:指集团数据中心,主要将公司中所有数据集中聚集在一起进行相关的处理操作(ODS层),一般与主题无关
  • 数据集市(小型数据仓库):在数仓基础之上,基于主题对数据进行抽取处理分析工作,形成最终分析的结果,一个数仓下可有多个集市

        2.3维度分析

  • 维度,一般指分析的角度,看待一个问题时可有多个角度就是维度。(如,有2022年订单数据,尝试分析;可以从时间、地域、商品....)
  • 维度可分为定性维度定量维度
    • 定性维度:指计算每天、每月...各个维度,一般定性维度的字段都在grou by 后
    • 定量维度:指的统计某一个具体的维度或者某一范围下的信息,一般定量维度的字段在 where 后。(如统计2022年订单中20~30岁区间人群人数)
  • 维度的上卷、下钻:以某一维度为基准,往细化统计的过程称为下钻;往粗粒度称为上卷
    • 如:按照天统计,需统计出小时,指的是下钻,需统计季度、月、年成为上卷
    • 从实际分析中,意味着统计的维度变得更多

        2.4指标

  • 指标:指衡量事务发展的标准,就是度量值;常见度量值:count()、sum()、avg().....
  • 指标可分为绝对指标相对指标
    • 绝对指标:计算具体的值指标。count()、max()、min()、avg()
    • 相对指标:计算比率问题的指标。转化率、流失率....
  •  需求:在2022年度,女性、未婚、18~25岁,用户每一天的订单量
    • 维度:时间维度、性别、婚姻状况、年龄
      • 定量维度:2022年度、18~25、女
    • 指标:订单量(绝对指标)===> count()

3.数仓建模

        3.1建模理论

数仓建模:指如何在Hive中建表,主要提供两种理论进行数仓建模操作

  • 三范式建模:主要是存在关系型数据库建模方案上,规定了比如建表的每一表都应该有一个主键,数据要经历的避免冗余发生
  • 维度建模:主要存在分析性数据库建模方案上,主要一切以分析为目标,只要有利于分析的建模都可以,允许出现一定的冗余,表也可以无主键

 三范式建模:SQL需要进行三表关联

 维度建模:SQL只需要操作一张表

        3.2维度建模

维度建模的两个核心概念:事实表维度表

  • 事实表,指分析主题所对应的表,每一天数据用于描述一个具体的事实信息,这些表都是由一堆主键(外键)和描述事实字段的聚集。(一般需要计算的指标字段所在表都是事实表)
  • 事实表分为:
    • 事务事实表,保存的是原子的数据,也称原子事实表;交易事实表。一般常说的事实表,大多指事务事实表
    • 周期快照事实表,其以具有规律性的·可预见的时间间隔来记录事实,时间间隔如每天、每月、每年等,其由事务表加工产生
    • 累计快照事实表,完全覆盖一个事务或产品的生命周期的时间跨度,通常具有多个日期字段,用来记录整个生命周期的关键时间节点
  • 维度表,指的是在对事实表进行统计分析时,基于某一个维度,而这个维度信息可能在其他表中,而这些表就是维度表
  • 维度表不一定存在,但维度一定存在。如:
    • 根据用户维度进行统计,如果在事实表只存储了用户 id ,此时需要关联用户表,这个时候就是维度表
    • 根据用户维度进行统计,如果在事实表不仅仅存储了用户 id 还存储了用户名称,这时候有用户维度,但不需要用户表的参与,意味着没有这个维度表
  • 维度表分为高基数维度表低基数维度表 
    • 高基数维度表,指表中数据量庞大,而且数据也在发生变化(商品表、商品表)
    • 低基数维度表,指表中数据量不大,一般几十到几千条,并且数据相对稳定(日期表、配置表、区域表)

        3.3维度建模的三种模型

  • 星型模型
    • 特点:只有一个事实表,就意味着只有一个分析主题,在事实表周围有多少个维度表,并且维度表之间没有任何依赖
    • 数仓发展初期最容易产生的模型
  • 雪花模型
    • 特点:只有一个事实表,意味着一个分析主题,在其周围有多个维度表,维度表之间有关联
    • 数仓发展出现畸形产生模型,这种模型一旦出现,对后期维护非常繁琐,依赖层次越大,SQL越难(尽量减少此种模型产生)
  • 星座模型
    • 特点:有多个事实表,意味着多个分析主题,在事实表周围有多个维度表,多个事实表在条件符合的情况下,可以共享维度表
    • 数仓发展中后期最容易产生的模型

        3.4缓慢渐变维

缓慢渐变维:解决历史变更数据是否需要维护的情况

  1. SCD1,直接覆盖,不维护历史变化数据;主要适用于对错误数据处理
  2. SCD2,不删除,不修改已存在的数据,当数据发生变更后,会添加一条新版本记录的数据。在建表的时候,会多加两个字段(起始时间,截至时间)通过这两个字段来标记每条数据的起止时间,一般称为“拉链表”
    1. 适用于多个历史版本,方便维护实现。
    2. 易造成数据冗余,导致磁盘占用率提升
  3. SCD3,通过增加列的方式来维护历史变化数据,可减少数据冗余,适用于少量历史版本的记录及磁盘空间不是特别充足的情况,但无法记录更多的历史版本,以及维护比较繁琐

例子: 张三1-6月份在北京消费100W

原始数据:

 

后来由于工作原因7月份搬到上海消费100W

SCD1:直接覆盖

SCD2:增加两个字段,添加一行

 

SCD3:在原始数据基础上添加新的一列

 

 

 


总结

        以上就是本篇所要阐述的全部内容,主要讲解了本项目索要用到的各种软件以及部分数仓的理论知识,之后将以项目为驱动对数仓进行系统的学习。

        以上内容有什么不恰当的地方,也欢迎大佬前来赐教,同时也希望可以帮到大家!!!谢谢大家!!

  • 3
    点赞
  • 23
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
抱歉,我无法提供图片或图表。但是,根据引用\[1\]和引用\[3\]的内容,可以给出一个简要的描述。Hive数仓数据流程图通常包括以下几个步骤: 1. 数据来源:数据可以来自不同的数据源,如HDFS、MySQL、Redis、MongoDB、TiDB等。每个数据源都有一个特定的标识,比如01代表HDFS数据,02代表MySQL数据等。 2. ODS层:原始数据几乎无处理地存放在ODS层,也称为操作数据存储区。ODS层的数据结构与源系统基本保持一致。 3. 数据处理:在ODS层,可以对原始数据进行必要的处理,如数据清洗、转换、合并等。这些处理可以使用Hive等工具进行。 4. 数据仓库:经过处理后的数据被加载到数据仓库中。数据仓库是一个用于存储和管理数据的系统,通常采用分布式存储和处理技术。 5. 数据展示:最后,使用报表展示工具(如FineBI)对数据进行可视化和分析,以便用户能够更好地理解和利用数据。 请注意,这只是一个简要的描述,实际的Hive数仓数据流程图可能会更加复杂和详细。 #### 引用[.reference_title] - *1* *3* [Hive数仓的分层及建模理论](https://blog.csdn.net/qq_56870570/article/details/118938411)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v91^insert_down28v1,239^v3^insert_chatgpt"}} ] [.reference_item] - *2* [1——Hive数仓项目完整流程在线教育)](https://blog.csdn.net/m0_57588393/article/details/127702966)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v91^insert_down28v1,239^v3^insert_chatgpt"}} ] [.reference_item] [ .reference_list ]
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值