HDFS读数据分析(四)：用Spark做计算引擎时，是否会根据HDFS数据本地性来分配Task到特定的Datanode

最新推荐文章于 2022-11-30 14:37:03 发布

Yannick_J

最新推荐文章于 2022-11-30 14:37:03 发布

阅读量328

点赞数

分类专栏： Spark Hadoop Yarn 文章标签： Spark

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/don_chiang709/article/details/86508267

版权

Spark 同时被 3 个专栏收录

34 篇文章 1 订阅

订阅专栏

23 篇文章 4 订阅

订阅专栏

12 篇文章 0 订阅

订阅专栏

一、前言

1. 版本：
Hadoop 源码版本: Version 2.7.1

二、内容

Spark的DAGScheduler是否会根据RDD的Partition包含的数据本地性，来分配Task到特定的Datanode来处理？代码在哪里？

代码在TaskSetManager.computeValidLocalityLevels函数里，它会赋值TaskSetManager.myLocalityLevels 的成员变量。Spark数据本地化即移动计算而不是移动数据，资源不够时可在该Locality Levels对应的限制时间内重试，超过限制时间（spark.locality.wait　3s 或者spark.locality.wait.process/.node/.rack）后还无法启动则降低Locality Levels再尝试启动。

另贴，https://blog.csdn.net/don_chiang709/article/details/86476525

三、参考

[spark] 数据本地化及延迟调度：https://blog.csdn.net/don_chiang709/article/details/86476525

Spark详细的scheduler调用流程：https://www.cnblogs.com/wzzkaifa/p/7229982.html

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
HDFS读数据分析(四)：用Spark做计算引擎时，是否会根据HDFS数据本地性来分配Task到特定的Datanode

一、前言1. 版本：Hadoop 源码版本: Version 2.7.1二、内容Spark的DAGScheduler是否会根据RDD的Partition包含的数据本地性，来分配Task到特定的Datanode来处理？代码在哪里？代码在TaskSetManager.computeValidLocalityLevels函数里，它会赋值TaskSetManager.myLocality...
复制链接

扫一扫

专栏目录

Yannick_J CSDN认证博客专家 CSDN认证企业博客

码龄12年

148: 原创

3万+: 周排名

9215: 总排名

107万+: 访问

: 等级

8402: 积分

457: 粉丝

469: 获赞

81: 评论

2837: 收藏

私信

关注

热门文章

分类专栏

管理学堂 1篇
打油诗集 5篇
UFS 5篇
BE
NAND
Ceph 67篇
Jenkins 3篇
Spark 34篇
Hadoop 23篇
linux kernel 30篇
Yarn 12篇
SparkSQL 4篇
存储 20篇
面试 3篇
Linux 22篇
nandflash 4篇
Eclipse 6篇
Database 4篇
闲谈 7篇

最新评论

linux FIO命令详解(一)：磁盘IO测试工具 fio (并简要介绍iostat工具)
鱼丸粉丝: 我这边找到一点点答案,如果你还是对这个问题有疑惑的话,裸盘读写的数据没有文件系统的情况下,它是以二进制的形式进行存储的,而且只是文件本身,如果你真的想做数据分析的情况下可以往二进制编解码靠拢,但是消耗的的时间成本希望你可以把控.
K8S入门系列（一）：Kubernetes的历史(由来)与架构
PasteSpider: 这里推荐用PasteSpider,为啥？ 1.你的K8S挂了，你的服务挂不挂？ PasteSpider就不一样了，他就真的只是个工具，辅助你部署而已，其他活都是其他零件在干，比如路由是nginx，服务运行是docker/podman,系统承载是Linux和PasteSpider有啥关系！实际环境中你把PasteSpider这个服务直接删除，你的服务也不会受影响！ 2.复杂程度，你没个一星期你敢动手上K8S？给你一个月时间你也不敢打包票没问题！ PasteSpider就不一样了,30分钟从开始到上项目！，就类似windows的图形操作，点点点，按照表单输入些东西就行，至于资料都是现成的，遇到问题了查下执行的日志记录，然后找对应的，比如路由找nginx的方案,私有仓库找registry的，容器的问题找docker或者Podman的，服务器的你找Linux对应的去！ 3.资源消耗 K8S你没个32GB内存的服务器你敢玩？PasteSpider我1GB就能上了，实际运行的时候PasteSpider内存消耗大概在200多MB这样子！ 4.PasteSpider也是开源不过和K8S不一样的是，PasteSpider采用的是局部开源，就是开源的对象是使用者，而不是随便的人都能下载源码！ 5.基本功能PasteSpider一个不落 a.平滑升级，采用nginx的滚动策略进行升级 b.支持集群部署，就是多台服务器运行 c.你可以局域网部署，也就是PasteSpider用到的资料全部用局域网的权限的，比如账号啥的 d.部署环境隔离，默认测试环境，生产环境，自定义其他环境，环境之间隔离的，一般体现在配置文件不一样 e.部署人和配置文件是错开的，部署的人可以看不到配置文件，由超级管理员指定！ f.文件同步，基于文件md5计算，每次都是增量升级，不需要全部覆盖提交，保证发布文件的正确性 g.个性化配置，支持Key-value模式，支持导入容器运行的环境Environment,接合环境模式可以配置不一样的运行配置。 h.配置后也支持开发电脑源码发布-->服务器上打包-->PasteSpider上构建-->推送到私有仓库registry-->分发给服务器拉取镜像-->部署滚动升级服务-->执行结果推送！更多介绍搜索 https://soft.pastecode.cn/Hom获取......
make的-j命令（加速Linux程序编译）
dujunqiu: 好想法，不过使用 tmpfs的话，要注意不要修改的文件掉电丢失了
specjbb 牵手 jdk 系列（二）：安装jdk及运行specjbb
m0_73539168: 你好，我的环境是jdk-21的版本，我在运行specjbb2015遇到了和您同样的报错，但我在执行解决办法的命令时，无法成功添加库，想请问一下应该怎么解决呢，期待回复，谢谢~
十大经典排序算法动画与解析
电子聪: 哇，这图好像看不了了~~

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。