解决Spark读取HDFS小文件的问题

最新推荐文章于 2023-03-10 19:22:56 发布

chilai4545

最新推荐文章于 2023-03-10 19:22:56 发布

阅读量963

点赞数

文章标签：大数据

原文链接：https://my.oschina.net/dreamness/blog/3082906

版权

若Spark读取HDFS文件夹时，其中的小文件过多会降低程序性能，也给HDFS带来压力。
当Spark读取文件时，会为每个文件的数据分配一个Partition，可以使用coalesce算子减少rdd中的分区。

首先，编写函数实现根据文件大小来确定分区数的功能

  def coalesceNum(path: String, targetSize_M: Long): Int ={
    val fileSystem = FileSystem.get(new URI("hdfs://c1:8020"),new Configuration(), "hdfs");
    var size = 0l
    fileSystem.globStatus(new Path(path + "/*")).foreach(x => {
      size += x.getLen
    })
//    加一是因为Partition的个数不能为0
    (size / 1024 /1024 / size).toInt + 1
  }

使用coalesce算子

val originRDD = spark.sparkContext.textFile(path).coalesce(RddUtils.coalesceNum(path, 20))

转载于:https://my.oschina.net/dreamness/blog/3082906

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

chilai4545

关注关注

0
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
解决Spark读取HDFS小文件的问题

若Spark读取HDFS文件夹时，其中的小文件过多会降低程序性能，也给HDFS带来压力。当Spark读取文件时，会为每个文件的数据分配一个Partition，可以使用coalesce算子减少rdd中的分区。首先，编写函数实现根据文件大小来确定分区数的功能 def coale...
复制链接

扫一扫