写个数仓吧(3)用户行为数仓和一些环境的搭建

最新推荐文章于 2024-02-29 11:34:37 发布

KujyouRuri

最新推荐文章于 2024-02-29 11:34:37 发布

阅读量152

点赞数

本文链接：https://blog.csdn.net/KujyouRuri/article/details/116402383

版权

@[TOC](写个数仓吧(3) ODS层的搭建)数仓基本概念数仓分层的概念和必要性：1、把复杂问题简单化（任务分解）2、清洗的数据结构（方便定位和理解）3、减少重复开发（增加一次计算结果的复用性）4、隔离原始数据（解耦）分层结构图：ODS层（原始数据层）原始数据层，存放原始数据，直接加载原始日志、数据，数据保持原貌不做处理。DWD层（明细数据层）结构和粒度与ODS层保持一致，对ODS层数据进行清洗（去除空值，脏数据，超过极限范围的数据），也有公司叫DWI。DWS层（服务数据层）以

摘要由CSDN通过智能技术生成

@[TOC](写个数仓吧(3) ODS层的搭建)

数仓基本概念

数仓分层的概念和必要性：

1、把复杂问题简单化（任务分解）

2、清洗的数据结构（方便定位和理解）

3、减少重复开发（增加一次计算结果的复用性）

4、隔离原始数据（解耦）

分层结构图：

在这里插入图片描述
ODS层（原始数据层）
原始数据层，存放原始数据，直接加载原始日志、数据，数据保持原貌不做处理。

DWD层（明细数据层）
结构和粒度与ODS层保持一致，对ODS层数据进行清洗（去除空值，脏数据，超过极限范围的数据），也有公司叫DWI。

DWS层（服务数据层）
以DWD为基础，进行轻度汇总。一般聚集到以用户当日，设备当日，商家当日，商品当日等等的粒度。
在这层通常会有以某一个维度为线索，组成跨主题的宽表，比如，一个用户的当日的签到数、收藏数、评论数、抽奖数、订阅数、点赞数、浏览商品数、添加购物车数、下单数、支付数、退款数、点击广告数组成的多列表。

ADS层（数据应用层）
数据应用层，也有公司或书把这层命名为APP层、DAL层等。
面向实际的数据需求，以DWD或者DWS层的数据为基础，组成的各种统计报表。
统计结果最终同步到RDS以供BI或应用系统查询使用。

关于区分数据集市与数据仓库

数据集市（Date Market），早在数据仓库诞生之初，一同并存的就有数据集市的概念。
现在市面上的公司和书籍都对数据集市有不同的概念。
狭义上来讲数据集市，可以理解为数据仓库中为用户提供数据支撑的应用层，比如咱们前文说的ADS层。
广义上，数据集市，所有以主题划分的数据仓库中可供查阅的都可以成为数据集市，包括DWD，DWS，ADS层，甚至包括从Hadoop中同步到RDS的数据都可以成为数据集市。
比如订单主题，我可以提供使用者，从明细，聚合统计，比率分析等全部数据，提供给某个部门查询。那么除了订单还有用户、商品、供应商等等主题分别可以供不同的人员部门使用，这都可以称之为数据集市。

更换引擎TEZ

对比：
在这里插入图片描述

用Hive直接编写MR程序，假设有四个有依赖关系的MR作业，上图中，绿色是Rgmallce Task，云状表示写屏蔽，需要将中间结果持久化写到HDFS。
Tez可以将多个有依赖的作业转换为一个作业，这样只需写一次HDFS，且中间节点较少，从而大大提升DAG作业的性能。

安装包准备
1）下载tez的依赖包：http://tez.apache.org
2）拷贝apache-tez-0.9.1-bin.tar.gz到hadoop102的/opt/module目录

[atguigu@hadoop102 module]$ ls
apache-tez-0.9.1-bin.tar.gz

3）解压缩apache-tez-0.9.1-bin.tar.gz

[atguigu@hadoop102 module]$ tar -zxvf apache-tez-0.9.1-bin.tar.gz

4）修改名称

[atguigu@hadoop102 module]$ mv apache-tez-0.9.1-bin/ tez-0.9.1

2.2.2 配置Tez环境变量
1）进入到Hive的配置目录：/opt/module/hive/conf

[atguigu@hadoop102 conf]$ pwd
/opt/module/hive/conf

2）在hive-env.sh文件中添加tez环境变量配置和依赖包环境变量配置

[atguigu@hadoop102 conf]$ vim hive-env.sh

添加如下配置

# Set HADOOP_HOME to point to a specific hadoop install directory
export HADOOP_HOME

最低0.47元/天解锁文章

KujyouRuri

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
写个数仓吧(3)用户行为数仓和一些环境的搭建

@[TOC](写个数仓吧(3) ODS层的搭建)数仓基本概念数仓分层的概念和必要性：1、把复杂问题简单化（任务分解）2、清洗的数据结构（方便定位和理解）3、减少重复开发（增加一次计算结果的复用性）4、隔离原始数据（解耦）分层结构图：ODS层（原始数据层）原始数据层，存放原始数据，直接加载原始日志、数据，数据保持原貌不做处理。DWD层（明细数据层）结构和粒度与ODS层保持一致，对ODS层数据进行清洗（去除空值，脏数据，超过极限范围的数据），也有公司叫DWI。DWS层（服务数据层）以
复制链接

扫一扫