Spark自定义RDD从HDFS读取数据

最新推荐文章于 2024-07-25 10:39:07 发布

APIC&0X7C00

最新推荐文章于 2024-07-25 10:39:07 发布

阅读量677

点赞数

分类专栏：大数据文章标签： spark hdfs

本文链接：https://blog.csdn.net/diyuhudievv/article/details/104960953

版权

3 篇文章 0 订阅

订阅专栏

1 思考- sc.txexFile会发生数据倾斜吗？自定义有必要吗？

一个task读取一个block中的数据，多少个block就会产生多少个Task，如果两个Task之间数据相差很多，那是因为两个block中数据分布不均匀造成的。。。

从HDFS读取数据，如果HDFS数据存在很多block，会使得分区partition很多，远远大于core数，这时候可以使用repartition方法将分区减少，但是最好的办法是从根源解决，所以自定义RDD，自行设定每个RDD读取字节起始范围，从而实现partition自定义化；

只需要重写3个方法：getPartitions getPreferredLocations compute

getPartitions :返回一个Partition数组，也就是当前读取HDFS数据需要划分为多少个分区，默认情况下，分区数和HDFS数据的block数是一致的
getPreferredLocations：当一个Task带着Partition过来，返回这个Task优先在哪几个节点进行计算，返回是一个Seq，其实就是partition中的数据所在hdfs block的主数据和备份数据所在节点
compute：Task带着Partition过来，返回此partitin中的数据的Iterator读取接口（这个需要自己实现，根据此Partition对应的HDFS block数据构建InputStream读取流，然后返回一个自定义的Iterator）

运行效果发现和sc.textFile是一样的

代码已上传

关注