电商数仓3.0 ODS层用户行为数据处理

最新推荐文章于 2022-01-06 00:41:20 发布

SmallScorpion

最新推荐文章于 2022-01-06 00:41:20 发布

阅读量190

点赞数

分类专栏： WareHouse3.0 文章标签： hive 大数据 hadoop spark python

本文链接：https://blog.csdn.net/qq_40180229/article/details/109334813

版权

WareHouse3.0 专栏收录该内容

34 篇文章 1 订阅

订阅专栏

创建日志表ods_log

-- ODS创建日志表ods_log
drop table if exists ods_log; -- 创建表存在先删除
CREATE EXTERNAL TABLE ods_log (`line` string) -- 创建外部表，字段就是json
PARTITIONED BY (`dt` string) -- 按照时间创建分区
STORED AS -- 指定存储方式，读数据采用LzoTextInputFormat；
  INPUTFORMAT 'com.hadoop.mapred.DeprecatedLzoTextInputFormat'
  OUTPUTFORMAT 'org.apache.hadoop.hive.ql.io.HiveIgnoreKeyTextOutputFormat'
LOCATION '/warehouse/gmall/ods/ods_log'  -- 指定数据在hdfs上的存储位置
;

在这里插入图片描述

加载数据

-- 加载数据
load data inpath '/origin_data/gmall/log/topic_log/2020-06-14'
    into table ods_log partition(dt='2020-06-14');

在这里插入图片描述

查看结果

-- 查看结果
select * from ods_log limit 10;

在这里插入图片描述

为lzo压缩文件创建索引

[scorpion@warehouse102 ~]$ hadoop jar /opt/module/hadoop-3.1.3/share/hadoop/common/hadoop-lzo-0.4.20.jar com.hadoop.compression.lzo.DistributedLzoIndexer -Dmapreduce.job.queuename=hive /warehouse/gmall/ods/ods_log/dt=2020-06-14

在这里插入图片描述

创建ODS层用户行为数据处理脚本

// 编辑脚本
[scorpion@warehouse102 bin]$ vim ods_hdfs_to_ods_log.sh
#!/bin/bash
# ods层用户行为数据导入log
# 定义变量方便修改
APP=gmall
hive=/opt/module/hive-3.1.2/bin/hive
hadoop=/opt/module/hadoop-3.1.3/bin/hadoop

# 如果是输入的日期按照取输入日期；如果没输入日期取当前时间的前一天
if [ -n "$1" ] ;then
   do_date=$1
else 
   do_date=`date -d "-1 day" +%F`
fi 

echo ================== 日志日期为 $do_date ==================
sql="
load data inpath '/origin_data/$APP/log/topic_log/$do_date' into table ${APP}.ods_log partition(dt='$do_date');
"

$hive -e "$sql"

$hadoop jar /opt/module/hadoop-3.1.3/share/hadoop/common/hadoop-lzo-0.4.20.jar com.hadoop.compression.lzo.DistributedLzoIndexer -Dmapreduce.job.queuename=hive /warehouse/$APP/ods/ods_log/dt=$do_date

// 增加权限
[scorpion@warehouse102 bin]$ sudo chmod 777 ods_hdfs_to_ods_log.sh

在这里插入图片描述

测试

[scorpion@warehouse102 bin]$ ods_hdfs_to_ods_log.sh 2020-06-15

在这里插入图片描述

SmallScorpion

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
电商数仓3.0 ODS层用户行为数据处理

创建日志表ods_log-- ODS创建日志表ods_logdrop table if exists ods_log; -- 创建表存在先删除CREATE EXTERNAL TABLE ods_log (`line` string) -- 创建外部表，字段就是jsonPARTITIONED BY (`dt` string) -- 按照时间创建分区STORED AS -- 指定存储方式，读数据采用LzoTextInputFormat； INPUTFORMAT 'com.hadoop.mapred
复制链接

扫一扫

专栏目录