spark处理小文件问题

最新推荐文章于 2023-06-15 10:50:02 发布

FangStar8Jeff

最新推荐文章于 2023-06-15 10:50:02 发布

阅读量2.2k

点赞数 1

分类专栏： Spark

本文链接：https://blog.csdn.net/qq_34341930/article/details/91136849

版权

Spark 专栏收录该内容

22 篇文章 1 订阅

订阅专栏

生产上的小文件问题很多，我们需要先根据集群的资源，测试出一个task最大能运行的size，然后根据这个参数，做coalesce（）的小文件合并操作。一般默认我们的生产集群给的size是1G。以下代码即可测试出最小的coalesce数。

import java.net.URI

import org.apache.hadoop.conf.Configuration
import org.apache.hadoop.fs.{FileSystem, Path}

object FileUtils {

    def getCoalesce(fileSystem: FileSystem, path:String, size:Int)={
      var length = 0l
      fileSystem.globStatus(new Path(path))
        .map(x => {
          length += x.getLen
        })
      (length/1024/1024/size).toInt+1
    }

  def main(args: Array[String]): Unit = {

    val config = new Configuration()
    val fs = FileSystem.get(new URI("hdfs://hadoop000:8020"),config)
    val coalesce = getCoalesce(fs,"/offLine14/data/*",20)

    println(coalesce)
  }
}

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

FangStar8Jeff

关注关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
spark处理小文件问题

生产上的小文件问题很多，我们需要先根据集群的资源，测试出一个task最大能运行的size，然后根据这个参数，做coalesce（）的小文件合并操作。一般默认我们的生产集群给的size是1G。以下代码即可测试出最小的coalesce数。import java.net.URIimport org.apache.hadoop.conf.Configurationimport o...
复制链接

扫一扫