spark参数调优
前言
为什么要发这篇文章呢?因为搞了半天,感觉这个更新换代很快啊~ 今天运行sparksql作业的时候,发现yarn上面的CPU资源,被占用完了,这™还搞个锤子并发嘛?
任务没有资源无法运行截图如下:
看了一下报错信息,原来是没有核数了~ 内存很充足~
怎么回事呢?才刚刚提了一个sparksql任务就给占满了?
排查过程
经过排查代码后发现,代码中开启了动态资源分配,代码片段如下:
原来这玩意儿不能随便加呀,不然资源都会动态没了~
解决方法
- 首先去掉代码中的参数配置
- 去掉集群中的动态资源配置(CDH集群)
- 修改spark-default配置文件,去除动态资源配置
相关截图如下:
在CDH集群界面上选择spark,点击配置,找到如下配合,勾勾去掉即可
配置文件修改参数为false
关闭完动态资源分配,下一步就是如何进行配置资源了?
如何进行资源调优呢?
首先配置指定相关的参数呢?可以参考官网: http://spark