一、写成的sql文件提交到azkaban中,进行任务调度:
博客中有对azkaban的学习,可以看一下,这里主要记录一下azkaban的坑
1、调度文件:*.job,这个文件以.job结尾,其中,格式是这样的:
---
config:
#failure.emails: xx@xx
nodes:
- name: dm_release_customer_cube_sql_job
type: command
config:
command: sh dm_release_customer_cube.sh
2.脚本文件:以.sh 结尾,注意!!
这个文件要改成unix格式!!!!
否则执行不了。
3、需要将hdfs的配置文件复制到spark的配置文件中:主要有:
4、任务提交执行时产生的错误:
Exception in thread "main" org.apache.spark.SparkException:
Yarn application has already ended!
It might have been killed or unable to launch application master.
这个问题 的解决办法是:在yarn-site.xml中添加这个配置:
<property>
<name>yarn.nodemanager.pmem-check-enabled</name>
<value>false</value>
</property>
<property>
<name>yarn.nodemanager.vmem-check-enabled</name>
<value>false</value>
</property>
配置文件解释:
yarn.nodemanager.pmem-check-enabled
是否检查每个任务正使用的物理内存量,如果超过默认值则将其杀死,默认是true。
yarn.nodemanager.vmem-check-enabled
是否检查每个任务正使用的虚拟内存量,如果超过默认值则将其杀死,默认是true。
工作中部署azkaban就出现了这些问题,总结出来的,以后一定注意!