Spark 的 Shuffle 浅析

最新推荐文章于 2023-09-11 13:00:28 发布

Yannick_J

最新推荐文章于 2023-09-11 13:00:28 发布

阅读量205

点赞数

分类专栏： Spark 文章标签： Shuffle

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/don_chiang709/article/details/82968966

版权

Spark 专栏收录该内容

34 篇文章 1 订阅

订阅专栏

前言：

Spark: version 2.3.2 (mater branch)

HiBench： version 6

Hadoop： version 2.7.1

一、内容：

1. Terasort测试用例 registerShuffle 里的 dependency 默认会用 Kryo serializer。

因为它是根据 SerializerManager.scala 里的 getSerializer 来判断是否用 Kryo serializer。而不是用户设置的 spark.serializer org.apache.spark.serializer.JavaSerializer 值。参考代码 getSerializer 函数，会根据key和value的类型来选择，如下：

/**
* Pick the best serializer for shuffling an RDD of key-value pairs.
*/
def getSerializer(keyClassTag: ClassTag[_], valueClassTag: ClassTag[_]): Serializer = {
if (canUseKryo(keyClassTag) && canUseKryo(valueClassTag)) {
kryoSerializer
} else {
defaultSerializer
}
}

Spark 官网的文档也做了相关说明，参考 http://spark.apache.org/docs/latest/tuning.html： Since Spark 2.0.0, we internally use Kryo serializer when shuffling RDDs with simple types, arrays of simple types, or string type.

2. SortShuffleManager里的registerShuffle函数决定job 使用哪种 shufflehandle(来决定用哪种shufflewriter)

注意：Spark 里的 Application/Job/Stage/Task(ShuffleMap/Result Tasks) 关系图如下，并且container(其中一个container 固定跑driver + 其它的container跑tasks(数目=executor数))分配后，会一直使用直到所有stages的Tasks执行完毕。

3. Spark里application, Job, Stage and shuffle的关系

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

Yannick_J CSDN认证博客专家 CSDN认证企业博客

码龄12年

148: 原创

3万+: 周排名

2万+: 总排名

110万+: 访问

: 等级

8558: 积分

466: 粉丝

483: 获赞

81: 评论

2898: 收藏

私信

关注

热门文章

分类专栏

管理学堂 1篇
打油诗集 5篇
UFS 5篇
BE
NAND
Ceph 67篇
Jenkins 3篇
Spark 34篇
Hadoop 23篇
linux kernel 30篇
Yarn 12篇
SparkSQL 4篇
存储 20篇
面试 3篇
Linux 22篇
nandflash 4篇
Eclipse 6篇
Database 4篇
闲谈 7篇

最新评论

一贴看清M.2，NVME和PCI-E的关系
axlshn: 专门登录账号只想对你说：翻译的啥玩意儿啊
linux FIO命令详解(一)：磁盘IO测试工具 fio (并简要介绍iostat工具)
鱼丸粉丝: 我这边找到一点点答案,如果你还是对这个问题有疑惑的话,裸盘读写的数据没有文件系统的情况下,它是以二进制的形式进行存储的,而且只是文件本身,如果你真的想做数据分析的情况下可以往二进制编解码靠拢,但是消耗的的时间成本希望你可以把控.
K8S入门系列（一）：Kubernetes的历史(由来)与架构
PasteSpider: 这里推荐用PasteSpider,为啥？ 1.你的K8S挂了，你的服务挂不挂？ PasteSpider就不一样了，他就真的只是个工具，辅助你部署而已，其他活都是其他零件在干，比如路由是nginx，服务运行是docker/podman,系统承载是Linux和PasteSpider有啥关系！实际环境中你把PasteSpider这个服务直接删除，你的服务也不会受影响！ 2.复杂程度，你没个一星期你敢动手上K8S？给你一个月时间你也不敢打包票没问题！ PasteSpider就不一样了,30分钟从开始到上项目！，就类似windows的图形操作，点点点，按照表单输入些东西就行，至于资料都是现成的，遇到问题了查下执行的日志记录，然后找对应的，比如路由找nginx的方案,私有仓库找registry的，容器的问题找docker或者Podman的，服务器的你找Linux对应的去！ 3.资源消耗 K8S你没个32GB内存的服务器你敢玩？PasteSpider我1GB就能上了，实际运行的时候PasteSpider内存消耗大概在200多MB这样子！ 4.PasteSpider也是开源不过和K8S不一样的是，PasteSpider采用的是局部开源，就是开源的对象是使用者，而不是随便的人都能下载源码！ 5.基本功能PasteSpider一个不落 a.平滑升级，采用nginx的滚动策略进行升级 b.支持集群部署，就是多台服务器运行 c.你可以局域网部署，也就是PasteSpider用到的资料全部用局域网的权限的，比如账号啥的 d.部署环境隔离，默认测试环境，生产环境，自定义其他环境，环境之间隔离的，一般体现在配置文件不一样 e.部署人和配置文件是错开的，部署的人可以看不到配置文件，由超级管理员指定！ f.文件同步，基于文件md5计算，每次都是增量升级，不需要全部覆盖提交，保证发布文件的正确性 g.个性化配置，支持Key-value模式，支持导入容器运行的环境Environment,接合环境模式可以配置不一样的运行配置。 h.配置后也支持开发电脑源码发布-->服务器上打包-->PasteSpider上构建-->推送到私有仓库registry-->分发给服务器拉取镜像-->部署滚动升级服务-->执行结果推送！更多介绍搜索 https://soft.pastecode.cn/Hom获取......
make的-j命令（加速Linux程序编译）
dujunqiu: 好想法，不过使用 tmpfs的话，要注意不要修改的文件掉电丢失了
specjbb 牵手 jdk 系列（二）：安装jdk及运行specjbb
m0_73539168: 你好，我的环境是jdk-21的版本，我在运行specjbb2015遇到了和您同样的报错，但我在执行解决办法的命令时，无法成功添加库，想请问一下应该怎么解决呢，期待回复，谢谢~

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。