大数据项目之电商数仓-用户行为数据仓库

最新推荐文章于 2024-01-21 21:46:45 发布

_TIM_

最新推荐文章于 2024-01-21 21:46:45 发布

阅读量1.3k

点赞数

文章标签：数据仓库

本文链接：https://blog.csdn.net/fang19970714/article/details/117827424

版权

本文介绍了电商数仓的构建过程，重点讨论了数据仓库分层，包括ODS、DWD、DWS和ADS层。阐述了ODS层原始数据的处理，DWD层的数据清洗和解析，并提及了Hive使用Tez运行引擎提升性能。同时，解释了业务术语，如用户、活跃用户、留存用户等概念，以帮助理解数据仓库在用户行为分析中的应用。

摘要由CSDN通过智能技术生成

数据仓库分层

把复杂问题简单化，把一个复杂的任务分解成多个步骤来完成，每一层只处理单一的步骤，比较简单和容易理解
清晰的数据结构，每一层都有它的作用域，这样我们在使用表的时候能更方便的定位和理解。便于维护数据的准确性，当数据出现问题的时候，可以不用修复所有的数据，只需要从有问题的步骤开始修复
减少重复开发，规范数据分层，通过中间层数据，能够减少极大的重复计算，增加一次计算结果的复用性
隔离原始数据，使得真是数据与统计数据接耦

分层结构图

在这里插入图片描述

ODS层（原始数据层）
原始数据层，存放原始数据，直接加载原始日志、数据，数据保持原貌不做处理。
DWD层（明细数据层）
结构和粒度与ODS层保持一致，对ODS层数据进行清洗（去除空值，脏数据，超过极限范围的数据），也有公司叫DWI。
DWS层（服务数据层）
以DWD为基础，进行轻度汇总。一般聚集到以用户当日，设备当日，商家当日，商品当日等等的粒度。在这层通常会有以某一个维度为线索，组成跨主题的宽表，比如，一个用户的当日的签到数、收藏数、评论数、抽奖数、订阅数、点赞数、浏览商品数、添加购物车数、下单数、支付数、退款数、点击广告数组成的多列表。
ADS层（数据应用层）
数据应用层，也有公司或书把这层命名为APP层、DAL层等。面向实际的数据需求，以DWD或者DWS层的数据为基础，组成的各种统计报表。统计结果最终同步到RDS以供BI或应用系统查询使用。

Hive运行引擎Tez

性能优于MapReduce，用Hive直接编写程序，假设有四个有依赖关系的MapReduce作业，绿色是Rgmallce Task，云状表示写屏蔽，需要将中间结果持久化写到HDFS。Tez可以将多个有依赖的作业转换为一个作业，这样只需写一次HDFS，且中间节点较少，从而大大提升DAG作业的性能。
在这里插入图片描述

数仓搭建之ODS & DWD

ODS层

原始数据层，存放原始数据，直接加载原始日志、数据，数据保持原貌不做处理。
创建启动日志表ods_start_log

hive (gmall)> 
drop table if exists ods_start_log;
CREATE EXTERNAL TABLE  `ods_start_log`(`line` string)
PARTITIONED BY (`dt` string)
STORED AS
  INPUTFORMAT 'com.hadoop.mapred.DeprecatedLzoTextInputFormat'
  OUTPUTFORMAT 'org.apache.hadoop.hive.ql.io.HiveIgnoreKeyTextOutputFormat'
LOCATION '/warehouse/gmall/ods/ods_start_log';

创建事件日志表ods_event_log

hive (gmall)> 
drop table if exists ods_event_log;
CREATE EXTERNAL TABLE  `ods_event_log`(`line` string)
PARTITIONED BY (`dt` string)
STORED AS
  INPUTFORMAT 'com.hadoop.mapred.DeprecatedLzoTextInputFormat'
  OUTPUTFORMAT 'org.apache.hadoop.hive.ql.io.HiveIgnoreKeyTextOutputFormat'
LOCATION '/warehouse/gmall/ods/ods_event_log';

ODS层加载数据脚本

#!/bin/bash

# 定义变量方便修改
APP=gmall
hive=/opt/module/hive/bin/hive

# 如果是输入的日期按照取输入日期；如果没输入日期取当前时间的前一天
if [ -n $1 ] ;then
 log_date=$1
else 
 log_date=`date  -d "-1 day"  +%F`  
fi 

echo "===日志日期为 $log_date==="
$hive -e "load data inpath '/origin_data/gmall/log/topic_start/$log_date' into table "$APP".ods_start_log partition(dt='$log_date')"
$hive -e "load data inpath '/origin_data/gmall/log/topic_event/$log_date' into table "$APP".ods_event_log partition(dt='$log_date')"

DWD层数据解析

对ODS层数据进行清洗（去除空值，脏数据，超过极限范围的数据，行式存储改为列存储，改压缩格式）

创建启动日志基础明细表
其中event_name和event_json用来对应事件名和整个事件。这个地方将原始日志1对多的形式拆分出来了。操作的时候我们需要将原始日志展平，需要用到UDF和UDTF。

hive (gmall)> 
drop table if exists dwd_base_start_log;
CREATE EXTERNAL TABLE `dwd_base_start_log`(
	`mid_id` string,
	`user_id` string, 
	`version_code` string,