CombineTextInputFormat切片机制优化大量小文件

最新推荐文章于 2022-07-24 21:29:44 发布

dingyufei615

最新推荐文章于 2022-07-24 21:29:44 发布

阅读量394

点赞数

分类专栏： Hadoop 文章标签： CombineTextInputFormat

Hadoop 专栏收录该内容

3 篇文章 0 订阅

订阅专栏

默认情况下TextInputformat对任务的切片机制是按文件规划切片,不管文件多小,都会有一个单独的切片,都会交给一个maptask,如果有大量的小文件,就会产生大量的maptask,处理效率及其低下
优化策略

(1) 最好的办法,在数据处理系统的最前端(预处理/采集),将小文件先合并成大文件,再上传到HDFS后续分析

(2)补救措施:如果已经是大量小文件在HDFS中了,可以使用另一种InputFormat来做切片(CombineTextInputFormat),切片逻辑和TextFileInputFormat不同,可以将多个小文件从逻辑上规划到一个切片中,这样,多个小文件就可以交给一个maptask

(3)优先满足最小切片大小,不超过最大切片大小

CombineTextInputFormat.setMaxInputSplitSize(job, 4194304);// 4m
CombineTextInputFormat.setMinInputSplitSize(job, 2097152);// 2m

四个文件
举例:0.5m+1m+0.3m+5m=2m + 4.8m=2m + 4m + 0.8m

具体实现步骤:

如果不设置InputFormat,它默认用的是TextInputFormat.class

job.setInputFormatClass(CombineTextInputFormat.class)
CombineTextInputFormat.setMaxInputSplitSize(job, 4194304);// 4m
CombineTextInputFormat.setMinInputSplitSize(job, 2097152);// 2m

在这里插入图片描述
添加代码实现

在这里插入图片描述
默认运行的wordcount是切片数是3

在这里插入图片描述
修改后切片数为1

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

dingyufei615

关注关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

解决小文件问题方式一：CombineTextInputFormat 切片合并

m0_46589706的博客

05-27

688

目录一、CombineTextInputFormat虚拟切片最大尺寸设置二、多个小文件的切片机制三、总结框架默认的TextInputFormat切片机制是对任务按文件规划切片，不管文件多小，都会是一个单独的切片，都会交给一个MapTask，这样如果有大量小文件，就会产生大量的MapTask，处理效率极其低下。那么处理小文件就需要CombineTextInputFormat了，CombineTextInputFormat用于小文件过多的场景，它可以将多个小文件从逻辑上规划到一个切片中，这样

CombineTextInputFormat的使用

qq_45451226的博客

06-16

457

CombineTextInputFormat继承于FileInputFormat类每个txt文件都是由几行单词构成（一行有几个）使用看代码 Map阶段 package com.combineTextInputFormat; import org.apache.hadoop.io.IntWritable; import org.apache.hadoop.io.LongWritable; import org.apache.hadoop.io.Text; import org.apache.hadoop

参与评论您还未登录，请先登录后发表或查看评论

【MapReduce】基础案例 ---- CombineTextInputFormat切片

懂得一千零一种,赋予你失败的方法！

01-08

611

文章目录CombineTextInputFormat切片● CombineTextInputFormat切片机制● CombineTextInputFormat案例1. 需求2. 编写代码运行Mapper端Reducer端Driver端● 补充说明 CombineTextInputFormat切片框架默认的TextInputFormat切片机制是对任务按文件规划切片，不管文件多小，都会是一个单独的切片，都会交给一个MapTask，这样如果有大量小文件，就会产生大量的MapTask，处理效率极其..

CombineTextInputFormat

weixin_43797368的博客

08-13

409

CombineTextInputFormat用于小文件过多的场景，它可以将多个小文件从逻辑上规划到一个切片中，这样，多个小文件就可以交给一个MapTask处理。 2）实现过程（1）不做任何处理，运行1.6节的WordCount案例程序，观察切片个数为4。（2）在WordcountDriver中增加如下代码，运行程序，并观察运行的切片个数为3。（a）驱动类中添加代码如下： // 如果不设置InputFormat，它默认用的是TextInputFormat.class job.setInputFormat

mapreduce关于大量小文件的优化策略

freefish_yzx的博客

08-05

3445

mapreduce关于大量小文件的优化策略在分布式的架构中，分布式文件系统HDFS，和分布式运算程序编程框架mapreduce。 HDFS:不怕大文件，怕很多小文件 mapreduce :怕数据倾斜那么mapreduce是如果解决多个小文件的问题呢？ mapreduce关于大量小文件的优化策略（1）默认情况下，TextInputFormat对任务的切片机制是按照文件规划切片，不管有多少个小文件，都会是单独的切片，都会交给一个maptask，这样，如果有大量的小文件就会产生大量的mapta

关于hadoop中maptask运行切片前，运行的文件有大量小文件问题

cool__007的博客

01-09

1422

关于大量小文件的优化策略：（1）默认情况下，TextInputformat对任务的切片机制是文件规划切片，不管文件多小，都会是一个单独的切片都会交给maptask。这样如果有大量小文件，就会产生大量的maptask，处理效率极其低下。（2）优化策略：最好的方式：在数据处理系统的最前端（预处理/采集），就将文件先合并成大文件，再上传到hdfs做后续分析补救措施：

Hadoop中hdfs小文件处理

XIAOMO__的博客

10-20

769

假如有128G的小文件，那么它会有多少字节那？一个小文件：占用namenode多大内存150字节； 128 * 1024*1024*1024byte/150字节 = 9亿文件块（1KB（Kilobyte，千字节）=1024B= 2^10 B；1MB（Megabyte，兆字节，百万字节，简称“兆”）=1024KB= 2^20 B；1GB（Gigabyte，吉字节，十亿字2113节，又称“千兆”）=1024MB= 2^30 B。）怎么解决呢？（1）采用har归档方式，将小文件归档我们...

第10节：MapReduce案例分析，MapReduce、自定义分区、MapReduce小文件优化

凯歌技术控团队

11-04

255

第10节：MapReduce案例分析，MapReduce、自定义分区、MapReduce小文件优化MapReduce框架原理3.1 MapReduce工作流程3.2 InputFormat数据输入3.2.1 Job提交流程和切片源码详解3.2.2 FileInputFormat切片机制3.2.3 CombineTextInputFormat切片机制 MapReduce框架原理 3.1 MapReduce工作流程 1）流程示意图 2）流程详解上面的流程是整个mapreduce最全工作流程，但是shuff

Combine TextInput Format

qq_46580122的博客

10-31

144

须在MapReduce中的Drive中设置setMaxInputSpiltSize()参数，得到想要划分多少文件 //如果不设置InputFormat，默认是TextInputFormat,class job.setInputFormatClass(CombineTextInputFormat.class); //虚拟存储最大切片设置20m CombineTextInputFormat.setMaxInputSplitSize(job,2097152...

InputFormat 之 CombineTextInputFormat

哈

12-06

386

前置课程: HDFS开发环境搭建示例：统计单词个数准备工作在hdfs的根目录下创建input文件夹，然后在里面放置4个大小分别为1.5M、35M、5.5M、6.5M的小文件作为输入数据具体代码 Mapper类 public class WordCountMapper extends Mapper<LongWritable, Text, Text, IntWritable> { ...

Hadoop(14)-MapReduce框架原理-切片机制

weixin_30808575的博客

12-10

392

1.FileInputFormat切片机制切片机制比如一个文件夹下有5个小文件,切片时会切5个片,而不是一个片案例分析 2.FileInputFormat切片大小的参数配置源码中计算切片大小的公式切片大小设置获取切片大小API 3.CombineTextInputFormat切片机制框架默认的TextInputFormat切片机制是对任务按文件...

Hadoop-MapReduce-CombineTextInputFormat，KeyValueTextInputFormat，NLineInputFormat，自定义InputFormat

H_X_P_的博客

05-09

859

Hadoop-MapReduce-CombineTextInputFormat，KeyValueTextInputFormat，NLineInputFormat，自定义InputFormat

Hadoop HDFS文件操作

上善若水

04-17

937

1、添加目录，HDFS默认工作目录为 /user/{user},其中{USER}为当前登录的用户名。 hadoop fs -mkdir -p /user/root 2、查看目录文件列表 hadoop fs -ls -R / 3、将文件从本地目录put到hdfs中 hadoop fs -put /root/example.ext /user/root 4、删除文件 hadoop...

Hadoop3.x使用CombineTextInputFormat实现小文件合并

QYHuiiQ

07-24

1322

在hadoop中对文件进行切片时，默认使用TextInputFormat中的切片机制，即按文件进行切片，不管文件大小，每个文件都会是一个单独的切片，并且每个文件/切片都会由一个单独的MapTask进行处理，但是这种切片机制会造成一个问题，如果有大量的小文件，那么也就要分配大量的MapTask，但每个文件的数据量又很小，光是启动MapTask的过程就会消耗大量的资源，这样显然是不合理的。以上的例子就简单测试了CombineTextInputFormat在小文件切片时的应用。可以看到日志中显示有5个切片。...

Hadoop--MapReduce--CombineTextInputFormat切片机制--FileInputFormat的实现类

weixin_44976835的博客

04-13

291

CombineTextInputFormat切片机制框架默认的TextInputFormat切片机制是对任务按文件规划切片，不管文件多小都会是一个单独切片，都会交给一个MapTask，如果有大量小文件，就会产生大量的MapTask，处理效率十分低下应用场景 CombineTextInputFormat用于小文件过多的场景，它可以将多个小文件从逻辑上规划到一个切片中，这样多个小文件可以交给一个MapTask处理虚拟存储过程设置setMaxInputSize值为4M ...

CombineTextInputFormat案例实操

Knight

04-24

331

import org.apache.hadoop.io.IntWritable; import org.apache.hadoop.io.LongWritable; import org.apache.hadoop.io.Text; import org.apache.hadoop.mapreduce.Mapper; import java.io.IOException; public c...

Hadoop CombineTextInputFormat 切片机制