spark源码分析：（二）Spark 读取文件时候的思考。

最新推荐文章于 2023-11-14 15:03:43 发布

empcl

最新推荐文章于 2023-11-14 15:03:43 发布

阅读量479

点赞数

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_20064763/article/details/88392874

版权

当我们使用Spark读取文件的时候，感觉很容易，也很快速。但是，我们想过其中实现的内在原理没？

目前我总结了，四个小问题，作为思考。

1).RDD创建个数

2).当我们使用textFile Api的时候，指定minPartition=3的时候，为什么系统会创建四个分区，以及四个Task呢？

3).当Spark读取文件的时候，文件是怎么划分的呢？我们观察Spark UI的时候，会发现有的task有输入数据，为什么task的输出的record为0呢？如下图所示：

1).创建RDD的个数：

https://blog.csdn.net/qq_20064763/article/details/88391284

2).分区与Task的创建个数细节：

https://blog.csdn.net/qq_20064763/article/details/88393205

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
spark源码分析：（二）Spark 读取文件时候的思考。

当我们使用Spark读取文件的时候，感觉很容易，也很快速。但是，我们想过其中实现的内在原理没？目前我总结了，四个小问题，作为思考。 1).RDD创建个数 2).当我们使用textFile Api的时候，指定minPartition=3的时候，为什么系统会创建四个分区，以及四个Task呢？ 3).当Spark读取文件的时候，文件是怎么划分...
复制链接

扫一扫

博客等级

码龄10年

31
原创

26
点赞

40
收藏

6
粉丝

关注

私信

分类专栏

最新评论

正则表达式的findall函数和match函数比较
qq_63228273: 解释得很到位，不错不错
更改文件夹中的所有文件中的某个字符串
一个松: 打印含有特定字符串的java文件：find . -name *.java -exec grep -H "switchSequence" {} \; 替换含有特定字符串的java文件：find . -name *.java -exec sed -i "g/switchSequence/updateSequence/g" {} \; 再用命令1检查替换结果
jvisualvm来连接VM的时候，报无法使用错误：service:jmx:rmi:....连接到ip:port
墨咖: 忘记了
jvisualvm来连接VM的时候，报无法使用错误：service:jmx:rmi:....连接到ip:port
岚殿: 老哥，现在你解决了吗
正则表达式的findall函数和match函数比较
WR944: 解决大问题了

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。