数仓设计阶段

DrKYQ

已于 2024-05-04 20:44:14 修改

阅读量689

点赞数 33

文章标签： database

于 2024-04-29 19:57:06 首次发布

本文链接：https://blog.csdn.net/DrKYQ/article/details/138323259

版权

本文介绍了HUE工具在HadoopCDH环境中的应用，详细阐述了数据仓库的概念、特点，包括OLTP和OLAP的区别，以及数仓的ETL过程。此外，文章还深入探讨了主题域划分、数据集市与数据仓库的设计原则，如分层架构、维度建模方法和不同模型（星状、雪花、星座）的比较，最后涉及DIM层数据处理中的编码问题和元数据导入。

摘要由CSDN通过智能技术生成

一、了解HUE工具

概念：是CDH提供的一个hive和hdfs的操作工具，在hue中编写hiveSQL也可以操作hdfs的文件

http://hadoop01:9870
- hdfs的web访问端口
hdfs://hadoop01:8020
- hdfs的程序访问端口

进入HUE

二、数仓介绍

概念：数据仓库是由一整套体系构成，包含数据采集，数据存储，数据计算，数据展示等数据仓库主要作用对过往历史数据进行，为公司决策停供数据支撑

特征：

面向主题
集成性
非易失性
时变性

OLTP
- 0LTP(0n-Line Transaction Processing)即联机事务处理，也称为面向交易的处理过程
OLAP
- 0LAP(0n-Line Analytical Processing)即联机分析处理，有时也称为决策支持系统(DSS)
  - 数仓
ETL
- ETL(Extra,Transfer，Load)包括数据抽取、数据转换、数据导入装载三个过程

三、主题和主题域（了解）

3-1 主题和主题域介绍

主题 是对数据进行归类，每个分类是一个主题

主题域 根据分析的领域，将联系较为紧密的数据主题的集合在一起

主题域下面可以有多个主题，主题还可以划分成更多的子主题，主题和主题之间的建设可能会有交叉现象

3-2 主题域的划分

按照系统划分
- 生产系统生产主题域
  - 商品原材料库存核销数据商品主题
  - 订单主题
- 财务系统
  - 商品原材料库存核销数据商品主题
  - 销售主题
- 人力系统
按照部门划分
- 人力部门人力主题域
  - 员工主题员工数据
  - 招聘主题招聘数据
- 生产部门
- 销售部门
- 后勤部门
按照业务划分
- 门店零售业务
- 批发业务
- 团购业务
按照行业经验
- 银行证券业
  - 当事人、产品、协议、事件、资产、财务、机构、地域、营销、渠道

黑马甄选是按照业务功能划分主题域

核销、售卖、会员、库存、订单

公司由数据分析师和数据产品经理根据公司业务场景设计主题，搭建分析的指标体系，形成指标文档

四、数据仓库和数据集市(理解熟悉)

数据集市就是数据仓库的一个子集，它主要面向部门级业务，并且只面向某个特定的主题

数据集市由业务部门定义、设计和开发，业务部门进行管理和维护

五、数仓设计（了解）

5-1 定义规范设计

表命名
- 分层_主题_实体+业务+维度_分区

分层 ods，dw，dwd

主题 sale（销售主题） user（用户主题）

实体+业务+维度

示例：
- store_goods_statistics_day
- store_member_statistics_day
- mysql中的表名+计算维度

ods_sale_store_goods_statistics_day_dt

规范不是前置要求，不同公司可能根据业务设计表名

字段类型规范
- 数量类型整数为bigint
- 金额类型为decimal(27, 2)，表示：27位有效数字，其中小数部分2位
- 数量类型小数为decimal(27, 3)，表示：27位有效数字，其中小数部分3位
- 字符串(名字，描述信息等)类型为string
- 日期类型为string
- 时间类型为timestamp

5-2 数仓分层设计

数据仓库最基础分层，分层本质就是创建不同的数据库，

原始数据层 ODS

将数据源的数据导入数仓ods层

创建一个ods的数据库，然后按照数据源中的表创建ods库下的hive表

数据仓库层 DW 数据处理

数据服务层 ADS 计算结果

数据分层设计到的有什么作用？

简化复杂问题。

通过将复杂的数据处理过程分解为多个步骤或层次，可以使问题更加易于理解和处理。

select sum(age) from tb1 join tb2 on tb1.id =tb2.id where age > 20 group by gender

结构更清晰。

每个数据层都有其明确的作用域，这有助于在使用表时方便地定位和理解。

数据血缘追踪。

分层结构使得数据血缘关系更加明确，便于追踪和调试。

用空间换时间。

通过预处理大量数据，可以提高应用系统的用户体验（效率），虽然这可能导致数据仓库中存在冗余数据。

数据重复使用，减少重复开发。

规范的数据分层可以促进数据和指标的统一，减少重复开发，并提高数据复用率。

数据隔离和屏蔽原始数据异常。

分层结构可以帮助隔离原始数据的异常或敏感性，保护真实数据与统计数据解耦。

数据安全。

通过分层，可以更方便地对不同层的数据进行权限管理，屏蔽敏感数据。

增强扩展性和便于后期维护。

不分层可能会导致整个数据清洗过程受到源业务系统规则变化的影响，而分层可以简化数据清洗过程，提高扩展性，便于后期维护。

5-3 数仓建模设计

数仓建模本质就是在数仓中如何设计表存储计算数据

数仓一般采用维度建模方式来设计不同的表

维度模型是Ralph Kimall所倡导，他的《数据仓库工具箱》是数据仓库工程领域最流行的数仓建模经典。维度建模以分析决策的需求出发构建模型，构建的数据模型为分析需求服务，因此它重点解决用户如何更快速完成分析需求，同时还有较好的大规模复杂查询的响应性能。

粗粒度 123819023809,3，5000,

细粒度 123819023809,小米手机红色 12G+256G，3999,1

在DWD层确认维度表和事实表，然后将事实表和维度表数据进行管理

在DWM层进行主题宽表关联

星状模型

每个事实表都自己独立的维度表，会造成重复创建维度表

雪花模型

星座模型

多个事实表可以关联相同的维度表

六、DIM维度层数据处理（掌握）

6-1 维度表介绍

6-2 DIM层表数据处理

I-hive表的中文问题解决

在mysql中执行如下语句

use hive;
alter table COLUMNS_V2 modify column COMMENT varchar(256) character set utf8;
alter table TABLE_PARAMS modify column PARAM_VALUE varchar(4000) character set utf8;
alter table PARTITION_PARAMS modify column PARAM_VALUE varchar(4000) character set utf8;
alter table PARTITION_KEYS modify column PKEY_COMMENT varchar(4000) character set utf8;
alter table INDEX_PARAMS modify column PARAM_VALUE varchar(4000) character set utf8;

导入元数据和行数据