Spark Tungsten-sort Based Shuffle 分析

最新推荐文章于 2021-10-26 20:36:58 发布

snail_gesture

最新推荐文章于 2021-10-26 20:36:58 发布

阅读量915

点赞数

分类专栏： Scala Spark 文章标签： spark

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/snail_gesture/article/details/50878655

版权

本篇博客主要是对Tungsten-sort Based Shuffle简单分析，因为钨丝计划还没有成熟，所以这里不会太详细的介绍。
一：使用Tungsten功能
1，如果想让您的程序使用Tungsten的功能，可以配置：
Spark.Shuffle.Manager = tungsten-sort
这里写图片描述
Spark在钨丝计划下要管理两种类型的内存存储方式：堆内和堆外。为了管理他们，所以搞了一个Page。
堆外：指针直接指向数据本身。
堆内：指针首先指向Object，然后通过偏移量OffSet再具体定位到数据。
2. DataFrame中自动开启了Tungsten功能。

二：Tungsten-sort base Shuffle writer内幕
下图是写入的过程：
这里写图片描述
输入数据的时候是循环每个Task中处理的数据Partition的结果，循环的时候会查看是否有内存，一个Page写满之后，才会写下一个Page。
如何看内存是否足够？
a）系统默认情况下给ShuffleMapTask最大准备了多少内存空间？默认情况下是通过ExecutorHeapMemory*0.8*0.2
Spark.shuffle.memoryFraction=0.2
spark.shuffle.safetyFraction=0.8
b）另外一方面是

最低0.47元/天解锁文章

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
Spark Tungsten-sort Based Shuffle 分析

本篇博客主要是对Tungsten-sort Based Shuffle简单分析，因为钨丝计划还没有成熟，所以这里不会太详细的介绍。一：使用Tungsten功能 1，如果想让您的程序使用Tungsten的功能，可以配置： Spark.Shuffle.Manager = tungsten-sort Spark在钨丝计划下要管理两种类型的内存存储方式：堆内和堆外。为了管理他们，所以搞了一
复制链接

扫一扫

专栏目录

snail_gesture CSDN认证博客专家 CSDN认证企业博客

码龄9年

79: 原创

17万+: 周排名

198万+: 总排名

28万+: 访问

: 等级

3605: 积分

222: 粉丝

108: 获赞

16: 评论

62: 收藏

私信

关注

热门文章

分类专栏

最新评论

Spark搭建HA详解
QKForex: 参数前别漏掉了 -D
Spark搭建HA详解
恩Sir: 请教博主，执行./spark-all.sh启动spark时报错怎么解决 Error: Could not find or load main class .zookeeper.url=node1:2181,node2:2181,node3:2181
Spark Streaming资源动态申请和动态控制消费速率原理剖析
sunkl_: streaming中动态资源，在分区个数不变和各分区数据平均的情况下，当动态超时时间配置时间超过batch-数据接收时间。非driver和非接收器的executor要么全部保留要么全部释放。不会出现部分释放。如果，集群突然资源紧张，开启动态资源，有可能流式会因为资源无法满足，导致大量dely，最终导致崩溃
Spark schedule资源调度分配详解
字母的艺术: 多谢多谢！
Spark Streaming性能优化系列-如何获得和持续使用足够的集群计算资源？
代码人的自白: 钱退了没

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。