Hive分层数仓的处理

最新推荐文章于 2024-08-05 12:09:46 发布

Mr.Persimmon

最新推荐文章于 2024-08-05 12:09:46 发布

阅读量762

点赞数

分类专栏：基于阿里云ECS服务器的大数据开发草记文章标签： hive 大数据

本文链接：https://blog.csdn.net/NoBuggie/article/details/117370384

版权

本文详细介绍了Hive分层数仓的设计与处理，包括ODS、DWD和DWS层的操作，如创建LZO压缩分区表、日志数据加载、维度表和事实表的处理，以及拉链表的制作。强调了在处理过程中需要注意的索引、切片和数据同步策略等问题。

摘要由CSDN通过智能技术生成

Hive分层数仓的处理（代码层面）

分层处理

五层分层设计
ODS
DWD
DWS
DWT
ADS

ODS层

1、创建支持LZO压缩的分区表

2、数据加载

3、脚本语句

DWD层

1、建表

 drop table if exists dwd_xxx
 create external table dwd_xxx(
 	`表字段` 字段类型 COMMENT '字段注释'
 ) COMMENT '表注释'
 partitioned by (dt string) --按照时间创建分区
 stored as parquet --采用parquet列式存储
 location '你想要把这张表存放在hdfs上的位置'
 tblproperties（'parquet.comperssion'='lzo'）;--表采用LZO压缩

备注：
1、数据采用 parquet 列式存储，是可以支持切片的，不需要再对数据创建索引。
2、如果采用 text 方式存储，需要采用支持切片的。lzop压缩方式并创建索引。

2、日志数据加载

SET hive.input.format=org.apache.hadoop.hive.ql.io.HiveInputFormat;
insert overwrite table dwd_xxx partition(dt='日期')
select
	get_json_object(xxx)
from
	ods_xxx
where 
	dt='日期'
and
	xxx

备注：
1、由于执行 count(*) 操作，默认采用的是 CombineHiveInputFormat，不能识别 lzo.index 为索引文件，将索引文件当作普通文件处理。更严重的是，这会导致LZO文件无法切片。因此我们需要在执行前，声明使用 HiveInputFormat；

3、维度表数据加载

SET hive.input.format=org.apache.hadoop.hive.ql.io.HiveInputFormat;
inset overwrite table dwd_dim_xxx partition(dt='日期')
select
	dim1.该维度表内部字段,
	dim2.该维度表内部字段,
	dim3

最低0.47元/天解锁文章

Mr.Persimmon

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
打赏
0
评论
Hive分层数仓的处理

Hive分层数仓的处理（代码层面）分层处理五层分层设计ODSDWDDWSDWTADSODS层1、创建支持LZO压缩的分区表2、数据加载3、脚本语句DWD层1、建表 drop table if exists dwd_xxx create external table dwd_xxx( `表字段` 字段类型 COMMENT '字段注释' ) COMMENT '表注释' partitioned by (dt string) --按照时间创建分区 stored as pa
复制链接

扫一扫