背景
spark处理的原始日志路径修改了,导致原有的报表处理的源数据找不到路径
需要重新启动oozie任务,并把过去几天丢失的数据补回来
# 第一个参数是每个模块的文件夹名
sh -x start_oozie_module.sh detail_report 2019-01-10T15:00 2111-01-01T00:00
今天是14号,从20190110 14:00之后的数据都需要追溯
那我启动oozie时的启动时间就选用这个
操作步骤如下:
在job.properties.template中修改日志路径,这个是全局有效的
然后在target建立detail_report目录,将jar包扔进去
启动oozie
spark每处理五分钟的数据大概需要五分钟,所以oozie的concurency可以设置高一些,相当于多线程执行
相当于在控制台开了多个窗口,同时提交spark任务
同事之前在oozie上传之后的hdfs目录下直接修改配置文件,类似给飞行中飞机换发动机
他说这样是可行的,但我这次修改concurency,新启动的任务也没有使用到这个新参数
最后还是用oozie命令重启了
注意重启之前,把原来的先杀掉,命令如下
oozie job -oozie http://ip:12000/oozie/ -kill 0130294-181213175815402-oozie-hado-C
另外对于同一个模块,也可以用oozie命令启动多个
比如线上正在运行一个oo