数仓分层数据库仓库实战

最新推荐文章于 2024-06-21 07:30:00 发布

飄落

最新推荐文章于 2024-06-21 07:30:00 发布

阅读量602

点赞数

本文链接：https://blog.csdn.net/oZuoLuo123/article/details/106612663

版权

本文介绍了数仓分层的概念，详细阐述了ODS和DWD层的搭建过程，包括ODS层的数据加载和DWD层的数据解析与清洗，涉及到Hive的表创建、数据分区、UDF和UDTF函数的应用，以及具体的DWD层表的构建。

摘要由CSDN通过智能技术生成

回到顶部

数仓分层

ODS：Operation Data Store
原始数据

DWD(数据清洗/DWI) data warehouse detail
数据明细详情，去除空值，脏数据，超过极限范围的
明细解析
具体表

DWS(宽表-用户行为，轻度聚合) data warehouse service ----->有多少个宽表？多少个字段
服务层--留存-转化-GMV-复购率-日活
点赞、评论、收藏;
轻度聚合对DWD

ADS(APP/DAL/DF)-出报表结果 Application Data Store
做分析处理同步到RDS数据库里边

数据集市：狭义ADS层；广义上指DWD DWS ADS 从hadoop同步到RDS的数据

回到顶部

数仓搭建之ODS & DWD

1）创建gmall数据库

hive (default)> create database gmall;

说明：如果数据库存在且有数据，需要强制删除时执行：drop database gmall cascade;

2）使用gmall数据库

hive (default)> use gmall;

1. ODS层

原始数据层，存放原始数据，直接加载原始日志、数据，数据保持原貌不做处理。

① 创建启动日志表ods_start_log

1）创建输入数据是lzo输出是text，支持json解析的分区表

复制代码

hive (gmall)> 
drop table if exists ods_start_log;
CREATE EXTERNAL TABLE ods_start_log (`line` string)
PARTITIONED BY (`dt` string)
STORED AS
INPUTFORMAT 'com.hadoop.mapred.DeprecatedLzoTextInputFormat'
OUTPUTFORMAT 'org.apache.hadoop.hive.ql.io.HiveIgnoreKeyTextOutputFormat'
LOCATION '/warehouse/gmall/ods/ods_start_log';

复制代码

Hive的LZO压缩：https://cwiki.apache.org/confluence/display/Hive/LanguageManual+LZO

加载数据；

时间格式都配置成YYYY-MM-DD格式，这是Hive默认支持的时间格式

hive (gmall)> load data inpath '/origin_data/gmall/log/topic_start/2019-02-10' into table gmall.ods_start_log partition(dt="2019-02-10");
hive (gmall)> select * from ods_start_log limit 2;

② 创建事件日志表ods_event_log

创建输入数据是lzo输出是text，支持json解析的分区表

复制代码

drop table if exists ods_event_log;
create external table ods_event_log
(`line` string) 
partitioned by (`dt` string)
stored as
INPUTFORMAT 'com.hadoop.mapred.DeprecatedLzoTextInputFormat'
OUTPUTFORMAT 'org.apache.hadoop.hive.ql.io.HiveIgnoreKeyTextOutputFormat'
location '/warehouse/gmall/ods/ods_event_log';

hive (gmall)> load data inpath '/origin_data/gmall/log/topic_event/2019-02-10' into table gmall.ods_event_log partition(dt="2019-02-10");

复制代码

ODS层加载数据的脚本

1）在hadoop101的/home/kris/bin目录下创建脚本

[kris@hadoop101 bin]$ vim ods_log.sh

最低0.47元/天解锁文章

飄落

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
数仓分层数据库仓库实战

回到顶部数仓分层ODS：Operation Data Store原始数据DWD(数据清洗/DWI)data warehouse detail数据明细详情，去除空值，脏数据，超过极限范围的明细解析具体表DWS(宽表-用户行为，轻度聚合)data warehouse service ----->有多少个宽表？多少个字段服务层--留存-转化-GMV-复购率-日活点赞、评论、收藏;轻度聚合对DWDADS(APP/DAL/DF)-出报表结...
复制链接

扫一扫