数仓建设 - 维度建模 - DIM维度

原创

已于 2023-12-07 17:16:47 修改 · 1k 阅读

19 ·

CC 4.0 BY-SA版权

文章标签：

#维度建模 #数据仓库

于 2023-12-07 15:17:57 首次发布

该博客围绕数据仓库维度建模展开，先介绍准备数据库，接着详细阐述商品、优惠券、活动、地区、日期和用户维度表的设计，包括表结构设计、建表语句，还给出各维度表的ETL任务脚本，如授予执行权限、执行脚本等，日期维度表涉及数据文件上传和SQL执行。

文章目录

前置：准备数据库
一、商品维度表
二、优惠券维度表
- 2.1 表结构设计
- 2.2 ETL任务脚本
三、活动维度表
- 3.1 表结构设计
- 3.2 ETL任务脚本
四、地区维度表
- 4.1 表结构设计
- 4.2 ETL任务脚本
五、日期维度表
六、用户维度表
- 6.1 表结构设计
- 6.2 ETL任务脚本

前置：准备数据库

[hadoop@hadoop102 apache-hive-3.1.2-bin]$ bin/hive

create database dw_dwd;
use dw_dwd;

一、商品维度表

1.1 表结构设计

序号	字段名	字段类型	字段中文名	描述
1	id	STRING	SKU_ID	主键
2	price	DECIMAL	商品价格	来自sku表
3	sku_name	STRING	商品名称	来自sku表
4	sku_desc	STRING	商品描述	来自sku表
5	weight	DECIMAL	重量	来自sku表
6	is_sale	INT	是否在售	来自sku表
7	spu_id	STRING	SPU编号	来自sku表
8	spu_name	STRING	SPU名称	来自spu表
9	category3_id	STRING	三级品类ID	来自sku表
10	category3_name	STRING	三级品类名称	来自base_category3表
11	category2_id	STRING	二级品类id	来自base_category3表
12	category2_name	STRING	二级品类名称	来自base_category2表
13	category1_id	STRING	一级品类ID	来自base_category2表
14	category1_name	STRING	一级品类名称	来自base_category1表
15	tm_id	STRING	品牌ID	来自sku表
16	tm_name	STRING	品牌名称	来自base_trademark表
17	sku_attr_values	STRING	平台属性	JSON串
18	sku_sale_attr_values	STRING	销售属性	JSON串
19	create_time	STRING	创建时间	JSON串

1.2 建表语句

use dw_dwd;

DROP TABLE IF EXISTS dim_sku_full;
CREATE EXTERNAL TABLE dim_sku_full (
    `id` STRING COMMENT '商品id',
    `price` DECIMAL(16,2) COMMENT '商品价格',
    `sku_name` STRING COMMENT '商品名称',
    `sku_desc` STRING COMMENT '商品描述',
    `weight` DECIMAL(16,2) COMMENT '重量',
    `is_sale` INT COMMENT '是否在售；1：是，0：否',
    `spu_id` STRING COMMENT 'spu编号',
    `spu_name` STRING COMMENT 'spu名称',
    `category3_id` STRING COMMENT '三级分类id',
    `category3_name` STRING COMMENT '三级分类名称',
    `category2_id` STRING COMMENT '二级分类id',
    `category2_name` STRING COMMENT '二级分类名称',
    `category1_id` STRING COMMENT '一级分类id',
    `category1_name` STRING COMMENT '一级分类名称',
    `tm_id` STRING COMMENT '品牌id',
    `tm_name` STRING COMMENT '品牌名称',
    `sku_attr_values` ARRAY<STRUCT<attr_id:STRING,value_id:STRING,attr_name:STRING,value_name:STRING>> COMMENT '平台属性',
    `sku_sale_attr_values` ARRAY<STRUCT<sale_attr_id:STRING,sale_attr_value_id:STRING,sale_attr_name:STRING,sale_attr_value_name:STRING>> COMMENT '销售属性',
    `create_time` STRING COMMENT '创建时间'
) COMMENT '商品维度表'
PARTITIONED BY (`dt` STRING)
STORED AS ORC
LOCATION '/warehouse/dw_dwd.db/dim_sku_full/'
TBLPROPERTIES ("orc.compress"="snappy");

msck repair table dim_sku_full;