get请求中传json参数报400的错误_诡异 | Spark使用get_json_object函数

一、问题现象:使用spark sql调用get_json_object函数后,报如下错误:yarn 容器被kill,导致任务失败,查看日志:Container killed by YARN for exceeding memory limits

eb3b192e00a544c50062e53b4c8d94db.png

使用spark命令:

b3b27b191fea8ebc859e6c0710e86c2c.png

二、问题分析过程:

2.1 既然executor内存不够,那么最先想到的就是增大executor-memory内存大小,从6G增大到12G =》通过多次测试发现,有时任务能成功,有时还是报相同的错误,并且内存还越用越多,诡异

9c7f232a89c97d0d137972aa1428e7ce.png

2.2 分析数据量发现其实并不大,也就几十万。以前上千万的数据量都不需要这么多内存。因此怀疑是get_json_object函数引起的问题。

2.3 去掉get_json_object函数,果然任务非常流畅,而且内存调回6G依然是成功的。

2.4 突然灵光一闪,依稀记得线下班讲过这块code,spark.yarn.executor.memoryOverhead这个参数是spark excutor的堆外内存,用于 VM overheads, interned strings, other native overheads, etc。猜想get_json_object应该主要是用的堆外内存。

2.5 spark.yarn.executor.memoryOverhead默认等于max(executorMemory * 0.10,384M),那么增大executorMemory再多,堆外内存实际增加的也比较少,因此考虑直接增大spark.yarn.executor.memoryOverhead值。

2.6 设置spark.yarn.executor.memoryOverhead等于6G,executor-memory减少到4G,经过测试,任务非常稳定的成功。

三、问题结论及终极解决方案:

3.1 原因分析:

该问题是由于get_json_object使用的是堆外内存,默认堆外内存只有max( executorMemory * 0.10,384M),可根据Container killed by YARN for exceeding memory limits. 19.9 GB of 14 GB physical memory used,这里的19.9G估算出堆外内存实际需要19.9G*0.1约等于1.99G,因此最少应该设置spark.yarn.executor.memoryOverhead为2G,为保险起见,我最后设置成了4G,脚本如下:

6d7c882a859aebe692c97ac15a5c44db.png

3.2 本案例的Container killed by YARN for exceeding memory limits的解决方案:

3.2.1 增大executor-memory内存大小

3.2.2 增大spark.yarn.executor.memoryOverhead内存大小

具体选用那一种,效果更好,需要结合具体场景,所以千万不要忽略堆外内存哟。

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值