* 定期或者按照变化,全量同步到数据仓库中
- 时间维度中有哪些核心字段?
年 季度 月 周 日 年的第几天 周的第几天 工作日 节假日 周日
* 每一年提前将下一年的时间维度信息生成,增量放入数据仓库中
- 服务网点维度中有哪些核心字段?
服务网点id 编码 名称 省份 城市 县区 组织机构id 组织机构名称
- 油站维度中有哪些核心字段?
油站id 油站编码 油站名称 省份 城市 县区 乡镇 客户id 客户名称 公司id 公司名称
- 组织机构维度中有哪些核心字段?
工程师id 工程师名称 岗位id 岗位名称 部门id 部门名称
-
集中问题
- DG连接不上:YARN的进程故障,导致ThriftServer无法运行
- Hadoop:NameNode、DataNode、ResourceManager、NodeManager
- Hive:Metastore、Hiveserver2
- Spark:ThriftServer
- 异常:ProtocolBuffer 不匹配:dim_date
- 数据文件与表的定义是不匹配的
- step1:检查建表语法
- step2:文件:上传时候文件是不对的
- 语法 + 函数 + 数据关系
- 语法 + 函数 :计算
- 数据关系:逻辑
- DG连接不上:YARN的进程故障,导致ThriftServer无法运行
02:项目目标
-
整体目标:构建数仓中的DWB:主题事务事实表
-
核心的主题事实的构建:SQL实现 + 主题的指标
- 原始事务事实数据【DWD】:订单数据
o001 userid1 2021-01-01 200.00
- 主题事务事实数据【DWB】:订单主题
o001 userid1 2021-01-01 订单总金额:200 订单总个数:1
- 主题周期快照事实表:数据应用层【ST:维度【DWS】 + 事实指标【DWB】】
2021-01-01 订单总金额:xxxx 订单总个数:xxxx
-
-
重点内容:SQL以及数据关系
03:分层回顾
- 目标:回顾一站制造项目分层设计
- 实施
+ ODS层 :原始数据层:101张表:AVRO
+ DWD层:明细数据层:101张表:ORC
+ DWS层:维度数据层:维度表
+ DWB层:轻度汇总层:Join + 构建基础指标
-
小结
- 回顾一站制造项目分层设计
04:DWB层的设计
-
目标:掌握DWB层的设计
-
路径
- step1:功能
既有适合小白学习的零基础资料,也有适合3年以上经验的小伙伴深入学习提升的进阶课程,涵盖了95%以上大数据知识点,真正体系化!
由于文件比较多,这里只是将部分目录截图出来,全套包含大厂面经、学习笔记、源码讲义、实战项目、大纲路线、讲解视频,并且后续会持续更新
出来,全套包含大厂面经、学习笔记、源码讲义、实战项目、大纲路线、讲解视频,并且后续会持续更新**