SPARK优化建议

最新推荐文章于 2023-06-08 09:48:14 发布

泰格数据

最新推荐文章于 2023-06-08 09:48:14 发布

阅读量303

点赞数

分类专栏： spark

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/xiefu5hh/article/details/52695442

版权

spark 专栏收录该内容

10 篇文章 1 订阅

订阅专栏

问题1：reduce task数目不合适

解决方案：

需要根据实际情况调整默认配置，调整方式是修改参数Spark.default.parallelism。通常的，reduce数目设置为core数目的2-3倍。数量太大，造成很多小任务，增加启动任务的开销；数目太小，任务运行缓慢。所以要合理修改reduce的task数目即spark.default.parallelism

问题2：shuffle磁盘IO时间长

解决方案：

设置spark.local.dir为多个磁盘，并设置磁盘的IO速度快的磁盘，通过增加IO来优化shuffle性能；

问题3：map|reduce数量大，造成shuffle小文件数目多

解决方案：

通过设置spark.shuffle.consolidateFiles为true，来合并shuffle中间文件，此时文件数为reduce tasks数目；

问题4：序列化时间长、结果大

解决方案：

spark默认使用JDK 自带的ObjectOutputStream，这种方式产生的结果大、CPU处理时间长，可以通过设置spark.serializer为org.apache.spark.serializer.KeyoSerializer。

另外如果结果已经很大，那就最好使用广播变量方式了，结果你懂得。

问题5：单条记录消耗大

解决方案：

使用mapPartition替换map，mapPartition是对每个Partition进行计算，而map是对partition中的每条记录进行计算；

问题6 : collect输出大量结果时速度慢

解决方案：

collect源码中是把所有的结果以一个Array的方式放在内存中，可以直接输出到分布式的文件系统，然后查看文件系统中的内容；

问题7: 任务执行速度倾斜

解决方案：

如果数据倾斜，一般是partition key取得不好，可以考虑其他的并行处理方式，并在中间加上aggregation操作；如果是Worker倾斜，例如在某些Worker上的executor执行缓慢，可以通过设置spark.speculation=true 把那些持续慢的节点去掉；

问题8: 通过多步骤的RDD操作后有很多空任务或者小任务产生

解决方案：

使用coalesce或者repartition去减少RDD中partition数量；

问题9：Spark Streaming吞吐量不高

可以设置spark.streaming.concurrentJobs

问题10：Spark Streaming 运行速度突然下降了，经常会有任务延迟和阻塞

解决方案：

这是因为我们设置job启动interval时间间隔太短了，导致每次job在指定时间无法正常执行完成，换句话说就是创建的windows窗口时间间隔太密集了；

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
SPARK优化建议

问题1：reduce task数目不合适解决方案：需要根据实际情况调整默认配置，调整方式是修改参数Spark.default.parallelism。通常的，reduce数目设置为core数目的2-3倍。数量太大，造成很多小任务，增加启动任务的开销；数目太小，任务运行缓慢。所以要合理修改reduce的task数目即spark.default.parallelism问题2：s
复制链接

扫一扫

专栏目录

泰格数据 CSDN认证博客专家 CSDN认证企业博客

码龄15年

41: 原创

8万+: 周排名

208万+: 总排名

18万+: 访问

: 等级

1993: 积分

48: 粉丝

49: 获赞

24: 评论

143: 收藏

私信

关注

热门文章

分类专栏

模型评估 5篇
机器学习 5篇
kafka 2篇
踩坑 2篇
linux 4篇
java 4篇
hadoop 11篇
hbase 13篇
spark 10篇
zookeeper 1篇
hive 1篇
sql 5篇
算法 11篇
redis 5篇
other 2篇
es 1篇
elasticsearch

最新评论

HBASE我遇坑之client.AsyncProcess: #1, waiting for 5012 actions to finish
JavaDevelopmentDM: 心情不好干脆都别写了,解决方案没写\原理没写
HBASE我遇坑之client.AsyncProcess: #1, waiting for 5012 actions to finish
其实我是真性情: 说了跟没说一样
tez 编译详解
小飞KeepMoving: --allow-root抄别人，但不给真实截图，都不知道想干嘛？
HBase常见性能问题及解决方案
Deep Learning小舟: 谢谢！（￣ˇ￣)
SPARK生产者写入KAFKA消息-代码及踩坑记录
weixin_44358303: [code=java] Caused by: java.lang.NoClassDefFoundError: Could not initialize class com.puhuilink.bigdata.etl.StreamRedisJoinWithJedis$ at com.puhuilink.bigdata.etl.StreamRedisJoinWithJedis$$anonfun$main$2$$anonfun$2.apply(StreamRedisJoinWithJedis.scala:95) at com.puhuilink.bigdata.etl.StreamRedisJoinWithJedis$$anonfun$main$2$$anonfun$2.apply(StreamRedisJoinWithJedis.scala:83) at scala.collection.Iterator$$anon$11.next(Iterator.scala:410) at scala.collection.Iterator$$anon$11.next(Iterator.scala:410) at org.apache.spark.sql.catalyst.expressions.GeneratedClass$GeneratedIteratorForCodegenStage1.processNext(Unknown Source) at org.apache.spark.sql.execution.BufferedRowIterator.hasNext(BufferedRowIterator.java:43) at org.apache.spark.sql.execution.WholeStageCodegenExec$$anonfun$13$$anon$1.hasNext(WholeStageCodegenExec.scala:636) at scala.collection.Iterator$$anon$12.hasNext(Iterator.scala:440) at scala.collection. [/code]

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。