Azkaban任务调度(使用带有依赖的任务调度)【mapreduce数据清洗,数据入hive库,kylin预编译、数据分析】
发布时间:2018-06-23 14:34,
浏览次数:624
, 标签:
Azkaban
mapreduce
hive
kylin
1 Azkaban任务调度管理
1.1 执行任务的脚本编写和说明
在做任务调度的过程中,要编写相应的脚本。
-rwxrwxrwx 1 root root 809 6月 12 19:52 auto-exec-1-mr.sh -rwxrwxrwx 1 root root
975 6月 12 19:53 auto-exec-2-load-logger-data.sh -rwxrwxrwx 1 root root 1459 6月
12 19:53 auto-exec-3-kylin-build.sh -rwxrwxrwx 1 root root 446 6月 16 14:34 auto
-exec-4-analyze.sh -rwxrwxrwx 1 root root 110 6月 12 19:54 auto-exec-5-sqoop
-mysql.sh -rwxrwxrwx 1 root root 313 6月 16 14:55 auto-exec-6-pv-uv.sh
然后让这些脚本具有可执行权限:
[root@bigdata1 logger-handler]# pwd /home/bigdata/workspace/logger-handler
[root@bigdata1 logger-handler]# chmod +x *.sh
1.1.1 auto-exec-1-mr.sh
该脚本主要用于执行数据清洗应用 #!/bin/bash sync echo 3 > /proc/sys/vm/drop_caches echo
"步骤1:执行logger的mr数据清洗程序" yesterday=`date --date='1 days ago' +%y-%m-%d`
#删除mapreduce清洗文件夹(存储上一天的那个文件夹) #yesterdayFolder=/output/nginx/$yesterday
#判断上一天的这个文件夹是否存在 hdfs dfs -test -e /output/nginx/$yesterday if [ $? -eq 0 ] then
echo "存在上一天这个文件夹" hdfs dfs -rm -r /output/nginx/$yesterday else
#字符串中带有变量时,这里的引号必须是双引号 echo "不存在$yesterday这个文件夹" fi echo
"开始进行日志