hadoop异常记录，job长期处于pending状态，资源空闲不被使用

最新推荐文章于 2022-09-20 23:00:00 发布

slx_2011

最新推荐文章于 2022-09-20 23:00:00 发布

阅读量7.3k

点赞数

分类专栏： hadoop那点事文章标签：解决方案异常处理 hadoop

本文链接：https://blog.csdn.net/slx_2011/article/details/27645541

版权

hadoop那点事专栏收录该内容

61 篇文章 0 订阅

订阅专栏

异常描述：

集群采用公平调度策略，当出现大批量job同时提交时，发生job全部hung住，处于pending状态

异常分析：

首先想到jobtracker异常，查看jobtracker日志，无报错信息；

分析可能是公平调度造成的，发现在监控页面手动调整job优先级，重新开始执行，整个集群恢复正常，猜测跟调度算法有很大的关系。

解决方案：

去掉公平调度，但这是一件很蛋疼的事情，面对多用户同时使用集群，FIFO的调度策略显得不够用；

换用其他调度策略，如计算能力调度器

或者优化公平调度的配置，减少jobtracker的压力

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

slx_2011

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

spark参数调整调优

萌兔兔MMQ！！

07-25

432

原理解释在hive中decimal类型是固定的用int32来表示，而标准的parquet规范约定，根据精度的不同会采用int32和int64来存储，而spark就是采用的标准的parquet格式；默认是5，挂了就设置为6；在实际生产中，通常需要根据程序中使用的缓存内存和计算内存，来划分不同的比例，从而合理的利用内存，避免OOM，提高性能；对于spark调优和OOM异常，通常都是对executor的内存做调整，spark内存模型也是指executor的内存分配，所以executor的内存管理是非常重要的；..

kubernetes 降本增效标准指南| 资源利用率提升工具大全

吉小白的博客

04-12

540

背景公有云的发展为业务的稳定性、可拓展性、便利性带来了极大帮助。这种用租代替买、并且提供完善的技术支持和保障的服务，理应为业务带来降本增效的效果。但实际上业务上云并不意味着成本一定较少，还需适配云上业务的应用开发、架构设计、管理运维、合理使用等多方面解决方案，才能真正助力业务的降本增效。在《Kubernetes 降本增效标准指南》系列的上一篇文章《容器化计算资源利用率现象剖析》中可看到，IDC 上云后资源利用率提高有限，即使已经容器化，节点的平均利用率依旧仅在 13% 左右，资源利用率的提升任重道远。

参与评论您还未登录，请先登录后发表或查看评论

hadoop学习（一）yarn jobs pending 和 jobs map % reduce 0%

qq_42910523的博客

04-28

521

yarn运行mapreduce程序wordcount yarn jar ./share/hadoop/mapreduce/hadoop-mapreduce-examples-2.9.2.jar wordcount /input/text1 /output/text2_out 坑一： yarn jobs 一直是 pending状态而不是 running 状态是因为yarn-site.xml中对...

Hadoop的默认调度器JobQueueTaskScheduler的一个Map Task Pending问题

PunC的专栏

03-07

2162

在正式环境的Hadoop任务调度里，集群整体资源还有大量slot的情况下，出现了某些MapReduce任务无法被调度，一直处于pending状态，无法获得集群slot资源进行计算的诡异情况。更改几个指定类的loglevel后，查看其Debug的log发现了问题原因：这是由于Hadoop 1.x默认的FIFO调度器JobQueueTaskScheduler在进行集群均衡计算时，忽略Speculati

Error : Snap7Exception b‘Job pending

weixin_45205568的博客

01-14

1307

Error : Snap7Exception b’Job pending

Hadoop Yarn大集群（千台以上）长作业pending的问题分析

weixin_35792948的博客

05-17

2571

大集群Hadoop Yarn队列pending优化 1.目前公司集群采用的规模越来越大，很多长作业出现了pending的现象。优化方法：调整参数yarn.resourcemanager.nodemanagers.heartbeat-interval-ms ,减小NM和RM之间的心跳周期，通过减少心跳周期，从而增加FairScheduler调度器调度到长作业的机会。原因 1.究其...

Hadoop NameNode启动之PendingReplicationMonitor（四）

海盗的小菜园

08-24

1168

PendingReplicationMonitor为PendingReplicationBlocks的内部类，先看PendingReplicationBlocks，主要记录被复制的块，周期性的检测块复制请求，主要维护以下几个变量： private Map pendingReplications; private ArrayList timedOutItems; Daemon time

Hadoop之核心调度Yarn Part Two

wangsofa的博客

03-04

690

上一篇讲到Yarn是什么？讲到这，我们知道其有哪些调度方式吗？YARN之三种调度方式：下面主要讲CapacityScheduler实现逻辑：一、应用程序初始化应用程序被提交到...

kylin调优，项目中错误总结，知识点总结，kylin jdbc driver + 数据库连接池druid + Myba

jdtugfcg的博客

02-17

2295

kylin调优，项目中错误总结，知识点总结，kylin jdbc driver + 数据库连接池druid + Myba

Flink的设计与实现：集群资源管理

大数据

08-20

549

导读：本文我们将重点介绍集群运行时中ResourceManager的设计和实现，了解如何通过ResourceManager对集群的计算资源进行有效管理。作者：张利兵来源：大数据DT（ID：...

hadoop2.0之HDFS集群管理：PendingReplicationMonitor

liuhong的专栏

01-03

1220

如果一个数据块需要冗余，会将其加入pendingReplications集合，如果块副本冗余完毕到某DataNode节点，该DN节点会报告给NameNode，然后NameNode从pendingReplications将块删除，如果一致没报告上来，会在一定时间范围内存储在pendingReplications内。pendingReplications为MapPendingBlockInfo>类型集

hadoop yarn方式执行mapreducejob一致peding，卡住不动

kouryoushine的博客

10-21

1854

执行命令后显示以上信息，登陆8088端口查看，发现job一直在Apps Pending状态，不是host文件问题，不是磁盘问题，勉强可以说是yarn-site.xml配置有问题，我说出来给大家参考。 1，我使用的是虚拟机模拟一个master，3个slaves， 2，yarn和mapreduce计算是么有关系的，所以只要把maprdc-site.xml文件配置清空，不启动yarn，应该可以执行。

生成shell脚本删除hadoop中所有Pending的Job

smallnetvisitor的博客

11-19

983

需求：由于job在提交的时候没有指定pool name导致了很多Pending的job，那么这些job需要批量kill掉思路：利用hadoop job -kill jobid，生成shell脚本批量删除。实现：生成shell： hadoop job -list|grep 'NA'|awk '{print "hadoop job -kill " $1}'>killbat...

hadoop 提交任务总是挂起状态

辙忆

05-31

2544

检查tasktracker 是否正常启动了，有可能中途挂掉了，重启就可以了。

mapreduce阶段出现pending的原因及解决

qq_43688472的博客

12-13

1213

mapreduce出现类似死锁情况在往hbase表里通过bulkload导数据时，某个mapreduce跑了一个多小时还没跑，看yarn界面，发现map还有一小部分没跑完，没跑完的map全在pending，running中没有，同时reduce在copy阶段把资源全用光，导致map没资源去跑，进而导致reduce一直在copy状态等待。也就是说map需要资源去跑，reduce需要等map全部跑完才能进行下一个阶段，这样就导致相互等待，类似死锁。大约在一个半小时左右，有130多个reduce被AppMast

Hadoop-Yarn-问题记录

迷路剑客个人博客

07-31

544

Yarn-问题记录 1 如果capacity配置的容量远超队列配额会引起某些bug，这里能先优化下maxcapacity这个值嘛，尽量不要超过太多capacity值 CapacityScheduler: applications could get starved because computation of #activeUsers considers pending apps 已有issue...

hadoop yarn 使用_flink on yarn 模式下提示yarn资源不足问题分析

weixin_29208327的博客

01-26

3305

背景在实时计算平台上通过YarnClient向yarn上提交flink任务时一直卡在那里，并在client端一直输出如下日志：(YarnClusterDescriptor.java:1036)- Deployment took more than 60 seconds. Please check if the requested resources are available in th...

【调优/排错】Hadoop：flink on yarn 模式下提示yarn资源不足：Running and Pending Application Limits

hiliang521的博客

09-20

1300

【调优/排错】Hadoop：flink on yarn 模式下提示yarn资源不足：Running and Pending Application Limits

Hadoop集群资源异常检测：时间序列方法与应用验证

本文主要探讨了一种针对Hadoop分布式平台的集群资源访问异常检测方法。Hadoop作为开源的大数据处理框架，其集群资源管理对于确保系统稳定性和优化性能至关重要。在分布式环境中，资源利用的不均衡和异常情况可能导致...