Spark GC 调优

最新推荐文章于 2024-04-21 14:28:25 发布

VIP文章 q79969786

最新推荐文章于 2024-04-21 14:28:25 发布

阅读量1.3w

点赞数 1

分类专栏： spark 文章标签： spark

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/q79969786/article/details/45786257

版权

我们的Spark环境目前主要问题是数据量大后一些task的GC Time 特别长，多则几分钟，少则几十秒，实在不能忍受。参考databricks的Tuning Java Garbage Collection for Spark Applications对我们的环境优化后，效果比较明显。

选择垃圾收集器

如果分配给单个Executor的Heap足够大(我认为超过32G)时使用G1，否则使用Parallel。因为如果在Heap小于32G时使用G1，G1 region size默认小于16M，可能引发Humongous对象分配问题。
当然，使用G1可能也可能引起Executor异常退出，这时有两种解决方法：
1. 减少cores数量(就是减少当前Executor并行task的数量)
2. 增加老年代内存

测试验证

硬件环境：(64G+8cores+42T) * 4，用yarn管理，利用Spark SQL对124G,169个字段的数据用row_number函数除重，除重前1.6亿条，除重后1.5亿条：

executor-memory	executor-cores	extraJavaOptions	Max GC Time	Job Duration
20g

最低0.47元/天解锁文章

关注

1
点赞
踩
10

收藏

觉得还不错? 一键收藏
0
评论
Spark GC 调优

Spark GC 优化
复制链接

扫一扫

专栏目录

q79969786 CSDN认证博客专家 CSDN认证企业博客

码龄13年

42: 原创

20万+: 周排名

100万+: 总排名

16万+: 访问

: 等级

2017: 积分

13: 粉丝

4: 获赞

8: 评论

22: 收藏

私信

关注

热门文章

分类专栏

最新评论

在IntelliJ 启动Spark的Master和Work
小小小黄鸡: 您好，您在吗，ava.io.InvalidClassException: org.apache.spark.rdd.RDD; local class incompatible: stream classdesc serialVersionUID = -3550615713128734032, local class serialVersionUID = -1180408054267465065这个问题我也遇到了，但是我的examples和我的master还有submit都是一批编译出来的，为什么会出现这种问题呢。。方便加我QQ吗：64050611，我把问题给您说的详细点~
CentOS编译OpenJDK
heiyecanyue: 按照文章编译成功，多谢
Phoenix 4.x HBase 0.98.1安装
q79969786 回复 xuyong3250: 我是直接放在{HBASE_HOME}/lib/中
Phoenix 4.x HBase 0.98.1安装
xuyong3250: 谢谢您的分享。不过我有一个地方不太明白，第四步添加classpath是在hbase-env.sh文件中添加吗？谢谢了。
Kafka和Spark Streaming Java版本集成并将数据实时写入HBase
q79969786: http://search.maven.org/remotecontent?filepath=org/apache/spark/spark-streaming-kafka_2.10/1.3.1/spark-streaming-kafka_2.10-1.3.1.jar

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。