Spark RDD 方法实现等底层原理

最新推荐文章于 2021-04-08 18:09:15 发布

清蒸小土豆

最新推荐文章于 2021-04-08 18:09:15 发布

阅读量147

点赞数

分类专栏： Spark

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Little_good/article/details/115471315

版权

Spark 专栏收录该内容

4 篇文章 0 订阅

订阅专栏

Spark读取数据分几个区

所有block块最多是128M大小

exam：两个文件一个 100bit 一个124bit
会计算所有block块字节数总和除以最小分区数（默认为2）得到goalsize 224/2=112

如果有文件块大于 goalsize的1.1倍 124/112=1.107 > 1.1
则将这个大文件分为两个区

0~112
112~124

如果想要按文件数量分区则设置最小分区数为1 则没有文件数可以超过goalsize 就不用拆分了

mapPartitions map MapPartitionsRdd MapPartitionsWithIndex

mapPartitions 对迭代器操作

map对迭代器的数据操作

mapPartitionsRdd 对迭代器操作 map底层实现原理

mapPartitionswithIndex 可以加上分区编号

如果map方法里面有一个链接用mapPartitions更好用map每次都要建立连接后者只需一次

reducedByKey

下游分区数量默认和上游一致
key为null的都分到0区
如果null值太多会发生数据倾斜，过滤一下处理一下

自己实现底层代码的方法（方法为private的情况下）

1 把包名改成他限定的包

2 在方法不依赖其他类的情况下，把代码复制到自己的类下

清蒸小土豆

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Spark RDD 方法实现等底层原理

Spark读取数据分几个区所有block块最多是128M大小exam：两个文件一个 100bit 一个124bit会计算所有block块字节数总和除以最小分区数（默认为2）得到goalsize 224/2=112如果有文件块大于 goalsize的1.1倍 124/112=1.107 > 1.1则将这个大文件分为两个区0~112112~124如果想要按文件数量分区则设置最小分区数为1 则没有文件数可以超过goalsize 就不用拆分了
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。