【解决】处于ACCEPTED状态不runnin…

最新推荐文章于 2023-01-04 01:59:01 发布

weixin_34116110

最新推荐文章于 2023-01-04 01:59:01 发布

阅读量354

点赞数

文章标签：大数据 python 运维

原文链接：https://my.oschina.net/ilovetao/blog/1569939

版权

2019独角兽企业重金招聘Python工程师标准>>>

Oozie提交pyspark任务后yarn 8088一直处于ACCEPTED状态不运行running

这个问题困扰了我一个周末……一个周末……（然后其实后面又困扰了一周）

而且重启注销，不懂是不是因为ubuntu kylin不稳定

【结果】是因为单集群的问题，导致yarn一次只能运行一个job。在服务器上跑就没有事儿，在自己的虚拟机上跑就不行，因为没配备多个虚拟机。——————【你以为是这样就大错特错了】

【真实原因】未开启yarn多线程模式，也就是scheduler为单线程单队列运行

　　如图，点开日志可以看到自己写的py程序正确地输出了结果。可以点开log来看。这里吐槽下，有些人忽视web界面的作用，觉得什么都用yarn命令行来查就好……真的很不方便的。web还能自动给你归类好，节省了大量无意义的工作，使你更专注解决exception等问题。

　　至于为什么会出现一直ACCEPTED不RUNNING的结果，因为Oozie提交pyspark任务是通过mapreduce来提交的。它先提交一个mapreduce任务，而这个mapreduce任务里面包含pyspark任务，造成2个任务同时在提交。如果yarn是单节点的，一次只能运行一个任务，那么就悲剧了。mapreduce提交了pyspark，此时mapreduce任务在running中，yarn已经没有slot给其它job了，然后，虽然pyspark已经ACCEPTED了但就是不能running。pyspark不running并结束，mapreduce也结束不了，无法释放资源给pyspark。

　　如何发现这样的问题呢？你在yarn命令行通过kill命令杀掉那个mapreduce，然后spark的job就能正常运行并出来结果了。

　　那么原因既然是没能2个job同时运行，那如何解决呢？我们查看一直在ACCEPTED的job的application_id，连接到相应的log，会发现它一直在重复如下的信息，就是不RUNNING：

INFO [communication thread] org.apache.hadoop.mapred.TaskAttemptListenerImpl: Progress of TaskAttempt attempt_1458755526820_9216_m_000000_0 is : 1.0

　　会觉得这个yarn默认模式笨的感人。解决这个问题有2个方案，一个是配置多个队列，第二个是配置一个FairScheduler。

　　有人就奇怪了，yarn本身不就是多线程的吗？为什么会出现这个问题，这就要谈到队列的概念。在yarn里面，提交任务需要指定queue（队列）的：

　“使用过第一代hadoop的同学应该比较熟悉mapred.job.map.capacity/mapred.job.reduce.capacity这个参数，无论是map还是reduce都可以配置capacity(也就是并发数)，表示同时可以有多少个map(或reduce)运行，通过这个参数可以限制一个任务同时占用的资源(节点)数，这样不至于影响其他任务的执行。

　　第二代hadoop因为使用yarn做资源管理，没有了槽位的概念，所以就没有了capacity。但是在yarn中专门有了CapacityScheduler这个组件。这是一个可插装的调度器，它的用途就是对多用户实现共享大集群并对每个用户资源占用做控制。

　　对于很豪的公司来说，每个用户(团队)自己有一个hadoop集群，这样可以提高自身的稳定性和资源供应，但是确降低了资源利用率，因为很多集群大多数时间都是空闲的。CapacityScheduler能实现这样的功能：每个组固定享有集群里的一部分资源，保证低保，同时如果这个固定的资源空闲，那么可以提供给其他组来抢占，但是一旦这些资源的固定使用者要用，那么立即释放给它使用。这种机制在实现上是通过queue（队列）来实现的。当然CapacityScheduler还支持子队列（sub-queue）。”——参考http://www.tuicool.com/articles/VNJNBr7

【解决方案】配置yarn多线程运行模式：

　　如果一直显示这样的：

INFO [communication thread] org.apache.hadoop.mapred.TaskAttemptListenerImpl: Progress of TaskAttempt attempt_1458755526820_9216_m_000000_0 is : 1.0

　　那么确实是调度器的问题。

　　在可行的解决方案中，增加队列可能没那么快，而修改调度器为FairSchduler是比较现成和快的解决方案：

　　修改yarn-site.xml文件，添加如下：

<name>yarn.resourcemanager.scheduler.class</name>

<value>org.apache.hadoop.yarn.server.resourcemanager.scheduler.fair.FairScheduler</value>

</property>

<name>yarn.scheduler.fair.preemption</name>

</property>