大数据优化方案----Spark案例优化(二)

最新推荐文章于 2024-08-16 10:02:14 发布

北京小辉

最新推荐文章于 2024-08-16 10:02:14 发布

阅读量2.1k

点赞数 1

分类专栏：【大数据面试宝典】文章标签： spark 优化

本文链接：https://blog.csdn.net/silentwolfyh/article/details/52142224

版权

【大数据面试宝典】专栏收录该内容

23 篇文章 75 订阅 ¥19.90 ¥99.00

订阅专栏

超级会员免费看

本文探讨了Spark优化策略，包括设置Kryo序列化、启用推测执行、使用reduceByKey替代groupByKey等。还详细分析了不同类型的join操作，如小表join大表、大表join大表的解决方案，并提醒注意RDD的序列化问题和避免嵌套RDD。此外，文中列举了作者在Spark编程中遇到的问题及解决经验。

摘要由CSDN通过智能技术生成

本篇文章是关于我在学习Spark过程中遇到的一些问题及总结，分为Spark优化、RDD join问题、遇到的问题、总结、参考资料几个部分。
一：Spark优化
1、设置序列化器为KryoSerializer
　　Spark默认使用的是Java序列化机制，但是Spark也支持使用Kryo序列化库，Kryo序列化机制比Java序列化机制性能高10倍左右
　　这里写图片描述

spark支持使用kryo序列化机制。kryo序列化机制，比默认的java序列化机制，速度要快，序列化后的数据要更小，大概是java序列化机制的1/10，所以kryo序列化优化后，可以让网络传输的数据变少，在集群中耗费的内存资源大大减少。

kryo序列化机制，一旦启用以后，会生效的几个地方：

1、算子函数中使用到的外部变量

2