Spark-使用总结-1

最新推荐文章于 2023-10-24 16:56:09 发布

Snail_Moved_Slowly

最新推荐文章于 2023-10-24 16:56:09 发布

阅读量424

点赞数 1

分类专栏：大数据

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Snail_Moved_Slowly/article/details/80027063

版权

大数据专栏收录该内容

5 篇文章 0 订阅

订阅专栏

导语

经过一段时间的学习，对spark的认识更深入了一些。有几个知识点一起再来学习一下。

1、spark参数的理解

spark.default.parallelism：该参数用于设置每个stage的默认task数量。

spark.sql.shuffle.partitions：对于Spark SQL中的shuffle类语句，比如group by、join等，该参数代表了shuffle read task的并行度，该值默认是200，对于很多场景来说都有点过小。、

这两个参数在运行日志中控制task数目最为关键的参数之一，因为task的数目是由输入的rdd数量决定，过大或过小都严重影响运行速度。

2、job、stage、task的划分

spark中可以分为三大类算子:

Value数据类型的Transformation算子，这种变换并不触发提交作业，针对处理的数据项是Value型的数据。
Key-Value数据类型的Transfromation算子，这种变换并不触发提交作业，针对处理的数据项是Key-Value型的数据对。
Action算子，这类算子会触发SparkContext提交Job作业。

常见的action算子：reduce、collect、count、take、first、saveAsTextFile、foreach、saveAsSequenceFile

https://www.jianshu.com/p/4ff6afbbafe4

这篇博客中对算子有更详细的描述，不再赘述。

窄依赖的函数有：map, filter, union, join(父RDD是hash-partitioned ), mapPartitions, mapValues

宽依赖的函数有：groupByKey, join(父RDD不是hash-partitioned ), partitionBy

宽依赖往往对应着shuffle操作，需要在运行过程中将同一个父RDD的分区传入到不同的子RDD分区中，中间可能涉及多个节点之间的数据传输；而窄依赖的每个父RDD的分区只会传入到一个子RDD分区中，通常可以在一个节点内完成转换。

http://blog.sina.com.cn/s/blog_6dd718930102xgm3.html

这篇博客中一句非常精辟的总结：每个action操作就是一个job，而每一个宽依赖就会产生一个stage。

理解了上述概念，就能看懂运行日志中的各种stage的划分，进而去判断在哪一步stage程序卡主了。

3、cache的理解

https://blog.csdn.net/databatman/article/details/53023818

这篇文章有对cache例子的描述，让人能直观理解cache的真正含义。

4、spark运行机制

http://www.cnblogs.com/duanxz/p/6329675.html

这篇博客介绍了spark的容错机制。可以参考理解。

总结：

虽然使用了很长一段时间spark，但是对内部机制还有待加强认识。https://www.cnblogs.com/jchubby/p/5449398.html

接下来按照这篇博客进行梳理，加强理解。

Snail_Moved_Slowly

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。