解决Spark读取HDFS小文件的问题

若Spark读取HDFS文件夹时, 其中的小文件过多会降低程序性能,也给HDFS带来压力。
当Spark读取文件时, 会为每个文件的数据分配一个Partition, 可以使用coalesce算子减少rdd中的分区。

  • 首先, 编写函数实现根据文件大小来确定分区数的功能
  def coalesceNum(path: String, targetSize_M: Long): Int ={
    val fileSystem = FileSystem.get(new URI("hdfs://c1:8020"),new Configuration(), "hdfs");
    var size = 0l
    fileSystem.globStatus(new Path(path + "/*")).foreach(x => {
      size += x.getLen
    })
//    加一是因为Partition的个数不能为0
    (size / 1024 /1024 / size).toInt + 1
  }
  • 使用coalesce算子
val originRDD = spark.sparkContext.textFile(path).coalesce(RddUtils.coalesceNum(path, 20))

转载于:https://my.oschina.net/dreamness/blog/3082906

  • 0
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值