最近项目在用kylin,在搭建开发环境和测试环境后,然后在kylin上建cube,kylin建cube实际就是调用集群的MR跑任务(也可以调用spark作为引擎),在数据量小或者维度(kylin里面的一个概念)少的时候没问题,后来数据量大或维度多了,就经常出现OOM的问题。
其实一开始就知道是并行度过高的问题,也尝试过在kylin里面调试,但并没有用。后来通过jps查看yarnchild个数,再到了解containers概念,再到nodemanager资源配置,最后终于知道问题点就在控制containers个数,然后就开始研究到这几个配置项了,这几个配置项影响着每个计算节点上container的个数(Vcore也会影响,本文先不说,就先当vcore是充足的),毕竟这段时间看日志报的都是OOM。
一、nodemanager/ratio
yarn.nodemanager.resource.memory-mb
- 集群中某个计算节点分配给nodemanager的最大可用内存,这个最大可用内存不是该节点最大内存,而是该节点最大内存划分出来的给nodemanager使用的内存,
- 该配置项在集群启动后,无法动态改变。
- 比如一个节点最大内存为128G,计划给nodemanager80%的内存资源,则设置yarn.nodemanager.resource.memory-mb为103G,其余25G用作该节点其他资源调配ÿ