生产环境spark sql实用tips

1. 在数据分层的dws层中,由于指标和维度表关联较多,数据量较大,作业运行时间较慢;经过排查后发现禁用广播join 效率提升明显。

故结论1如下:

在大量数据或者在复杂的sql情况下,禁止broadcasthashjoin可以减少网络开销

spark.sql.autoBroadcastJoinThreshold =-1

2.作业中有大表关联时会出现 如下错误

org.apache.spark.shuffle.FetchFailedException: failed to allocate 16777216 byte(s) of direct memory

具体原因是 

同时拉取大量的shuffle block,导致netty自己控制的内存超过限制

 解决方式是增加堆内内存

增加direct momery
conf.spark.executor.extraJavaOptions   -XX:MaxDirectMemorySize=4096m

未完待续... 

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值