【Azkaban】之 作业依赖并定时调入hive表(20)

文章目录一、需求二、数据准备(1)`Hive` 表三、开发思路四、开发步骤五、结果一、需求现有用户点击行为数据文件,每天产生会上传到 hdfs 目录,按天区分目录。现在需要每天凌晨两点定时导入 Hive 表指定分区中,并统计出今日活跃用户数插入指标表中。日志文件 clicklog用户点击行为数据,三个字段是用户 id, 点击时间,访问页面userId click_time indexuid1 2020-06-21 12:10:10 a.html ui
摘要由CSDN通过智能技术生成

一、需求


现有用户点击行为数据文件,每天产生会上传到 hdfs 目录,按天区分目录。
现在需要每天凌晨两点定时导入 Hive 表指定分区中,并统计出今日活跃用户数插入指标表中。

  1. 日志文件 clicklog

用户点击行为数据,三个字段是用户 id, 点击时间,访问页面

userId   click_time             index
uid1	2020-06-21	12:10:10	a.html 
uid2	2020-06-21	12:15:10	b.html 
uid1	2020-06-21	13:10:10	c.html 
uid1	2020-06-21	15:10:10	d.html 
uid2	2020-06-21	18:10:10	e.html
  1. hdfs 目录会以日期划分文件,例如:
/user_clicks/20200621/clicklog.dat
/user_clicks/20200622/clicklog.dat
/user_clicks/20200623/clicklog.dat
...
  1. 开发需求
  • 开发一个 import.job 每日从 hdfs 对应日期目录下同步数据到该表指定分区。(日期格式同上或者自定义)
  • 开发一个 analysis.job 依赖 import.job 执行,统计出每日活跃用户(一个用户出现多次算作一次)数并插入 user_info 表中。


二、数据准备



(1)Hive

  1. 原始数据分区表
create table user_clicks(id string,click_time string,index string)
partitioned by(dt string) row format delimited fields terminated by '\t' ;

# 导入本地数据
LOAD DATA LOCAL INPATH '/root/data/click.txt' OVERWRITE INTO TABLE user_clicks PARTITION (dt='20200621');
  1. 指标表
create table user_info(active_num string,`date` string)
row format delimited fields terminated by '\t' ;
  • 1
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值