数仓项目中azkaban的工作错误总结！

最新推荐文章于 2024-07-06 02:09:50 发布

ZhuangYQ丶

最新推荐文章于 2024-07-06 02:09:50 发布

阅读量985

点赞数 1

分类专栏：大数据学习 Hive学习 Spark

本文链接：https://blog.csdn.net/iilegend/article/details/92800178

版权

大数据学习同时被 3 个专栏收录

57 篇文章 2 订阅

订阅专栏

Hive学习

42 篇文章 3 订阅

订阅专栏

Spark

12 篇文章 0 订阅

订阅专栏

一、写成的sql文件提交到azkaban中，进行任务调度：

博客中有对azkaban的学习，可以看一下，这里主要记录一下azkaban的坑

1、调度文件：*.job,这个文件以.job结尾，其中，格式是这样的：

---
config:
  #failure.emails: xx@xx

nodes:
  - name: dm_release_customer_cube_sql_job
    type: command
    config:
      command: sh dm_release_customer_cube.sh

2.脚本文件：以.sh 结尾，注意！！

这个文件要改成unix格式！！！！

否则执行不了。

3、需要将hdfs的配置文件复制到spark的配置文件中：主要有：

4、任务提交执行时产生的错误：

Exception in thread "main" org.apache.spark.SparkException: 
Yarn application has already ended! 
It might have been killed or unable to launch application master.

这个问题的解决办法是：在yarn-site.xml中添加这个配置：

<property>
    <name>yarn.nodemanager.pmem-check-enabled</name>
    <value>false</value>
</property>
<property>
    <name>yarn.nodemanager.vmem-check-enabled</name>
    <value>false</value>
</property>

配置文件解释：

yarn.nodemanager.pmem-check-enabled
是否检查每个任务正使用的物理内存量，如果超过默认值则将其杀死，默认是true。
yarn.nodemanager.vmem-check-enabled
是否检查每个任务正使用的虚拟内存量，如果超过默认值则将其杀死，默认是true。

工作中部署azkaban就出现了这些问题，总结出来的，以后一定注意！