离线数仓搭建之ODS层（原始数据层）

最新推荐文章于 2023-09-23 16:00:58 发布

後弛

最新推荐文章于 2023-09-23 16:00:58 发布

阅读量947

点赞数 2

文章标签： spark hive 大数据

本文链接：https://blog.csdn.net/qq_54021998/article/details/116718769

版权

离线数仓的ODS层（原始数据层）基于Hive on Spark的搭建

1.预先将原始数据（页面埋点的Json数据）采集到HDFS上
数据采集框架图

2.配置Hive on Spark
（1）在Hive所在节点部署Spark
（2）在hive中创建spark配置文件
（3）向HDFS上传Spark纯净版jar包
（4）修改hive-site.xml文件

3.配置yarn

4.使用工具连接hive，在Hive中创建ODS层

（1）用户行为数据
创建lzo压缩分区表

drop table if exists ods_log ;
create external table ods_log(`line` String)
row format delimited fields terminated by '\t'
STORED AS INPUTFORMAT "com.hadoop.mapred.DeprecatedLzoTextInputFormat"
                   OUTPUTFORMAT "org.apache.hadoop.hive.ql.io.HiveIgnoreKeyTextOutputFormat"

再将HDFS上的用户行为数据的lzo文件导入表中即可生成ODS层的用户行为数据。

（2）业务数据
创建活动信息表

例：

--用户表
DROP TABLE IF EXISTS ods_user_info;
CREATE EXTERNAL TABLE ods_user_info(
    `id` STRING COMMENT '用户id',
    `login_name` STRING COMMENT '用户名称',
    `nick_name` STRING COMMENT '用户昵称',
    `name` STRING COMMENT '用户姓名',
    `phone_num` STRING COMMENT '手机号码',
    `email` STRING COMMENT '邮箱',
    `user_level` STRING COMMENT '用户等级',
    `birthday` STRING COMMENT '生日',
    `gender` STRING COMMENT '性别',
    `create_time` STRING COMMENT '创建时间',
    `operate_time` STRING COMMENT '操作时间'
) COMMENT '用户表'
PARTITIONED BY (`dt` STRING)
ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t'
STORED AS
  INPUTFORMAT 'com.hadoop.mapred.DeprecatedLzoTextInputFormat'
  OUTPUTFORMAT 'org.apache.hadoop.hive.ql.io.HiveIgnoreKeyTextOutputFormat'
LOCATION '/warehouse/gmall/ods/ods_user_info/';

导入数据：
搭建数仓第一次导入数据时采用全量导入
后面每天按照表的设计同步策略进行每日同步（封装成shell脚本）

後弛

关注

2
点赞
踩
5

收藏

觉得还不错? 一键收藏
4
评论
离线数仓搭建之ODS层（原始数据层）

离线数仓的ODS层（原始数据层）基于Hive on Spark的搭建1.预先将原始数据（页面埋点的josn数据采集到HDFS上）2.配置Hive on Spark（1）在Hive所在节点部署Spark（2）在hive中创建spark配置文件（3）向HDFS上传Spark纯净版jar包（4）修改hive-site.xml文件3.配置yarn4.使用工具连接hive，在Hive中创建ODS层（1）用户行为数据创建lzo压缩分区表drop table if exists ods_l
复制链接

扫一扫