通过获取HDFS目录/文件夹大小来控制reduce个数

2 篇文章 0 订阅

一般map的个数系统会根据文件block数量来获取

而reduce个数一般默认1个,在每个JOB用户根据自己的需要自己调整

但是往往同一个JOB在不同目录下获取的数据大小相差很多,所以要根据每次获取数据的大小来确定reduce

    public static long getDirSize(Path dir, Configuration conf) throws IOException{
        URI uri = dir.toUri();
        String thisScheme = uri.getScheme();
        FileSystem hdfs = dir.getFileSystem(conf);
        LOGGER.info("thisScheme = " + thisScheme);
        return hdfs.getContentSummary(dir).getLength(); 
    }
这个方法可以获取dir这个文件夹的大小,然后根据数据大小自行决定reduce的数量

PS:

获取FileSystem对象还有一个方法就是通过FileSystem.get(conf)方法,不过最好不要用这个方法

因为path很有可能并非hdsf的FileSystem,也有可能是har或者其他的FileSystem

用path.getFileSystem系统会自行决定获取哪个FileSystem对象

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值