hadoop大量小文件的优化策略

csdm_admin

于 2017-04-07 13:10:05 发布

阅读量1.2k

点赞数 2

分类专栏： hadoop 文章标签： hadoop 优化

本文链接：https://blog.csdn.net/csdm_admin/article/details/69525893

版权

hadoop 专栏收录该内容

5 篇文章

订阅专栏

本文介绍了如何在Hadoop中使用CombineTextInputFormat类来设置输入切分的最大和最小大小，这对于优化MapReduce任务的处理效率至关重要。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

这里写图片描述

代码:

    //如果不设置InputFormat，它默认用的是TextInputformat.class
        job.setInputFormatClass(CombineTextInputFormat.class);
        CombineTextInputFormat.setMaxInputSplitSize(job, 4194304);
        CombineTextInputFormat.setMinInputSplitSize(job, 2097152);